Ок — вот почему никогда не стоит доверять бенчмаркам ИИ.
Недавнее исследование сравнило Opus 4.6 (последнюю модель Claude) и Opus 4.5 по 165 различным задачам.
Глубокое исследование пришло к выводу, что Opus 4.6 не лучше предыдущей модели.
Но Opus 4.6 достиг этого за 50% затрат и 50% времени.
Все равно это огромные улучшения, просто будьте осторожны с заголовками бенчмарков.
Лучший способ определить, лучше ли модель предыдущих версий — протестировать её для ваших конкретных нужд.
В любом случае, молодцы команда Anthropic за это значительное снижение затрат и времени выполнения.
Посмотреть Оригинал