нарешті бенчмарк, який дійсно має значення.


забудьте про MMLU та результати з математики.. PinchBench тестує, яка модель ШІ найкраща у виконанні реальної роботи.
не відповідає на трівіальні питання. фактично виконує дії:
→ пошук інформації з кількох веб-джерел
→ створення та планування зустрічей
→ організація файлів на вашому комп’ютері
→ написання та керування електронною поштою
цей тест перевіряє моделі, що працюють як агенти через OpenClaw.. тобто ШІ має використовувати інструменти, ланцюжки дій і виконувати завдання від початку до кінця.
результати цікаві:
> Gemini 3 Flash лідирує з 95.1%
> MiniMax M2.1 майже поруч з 93.6%
> Kimi K2.5 з 93.4%
> Claude Sonnet з 92.7%
> Gemini 3 Pro з 91.7%
> Claude Haiku з 90.8%
> Claude Opus 4.6 з 90.6%
> GPT-5 Nano з 85.8%
різниця між найкращими і найгіршими складає лише ~10%.. що означає, що більшість передових моделей досить добре справляються з агентськими завданнями.
але справжній висновок? Gemini Flash.. легка модель.. перевершує всі важкі моделі у практичній роботі агента. швидкість + використання інструментів > чистий інтелект.
це той тип бенчмарку, який має визначати, яку модель ви використовуєте щодня.. а не якийсь академічний тест, з яким ніхто не має зв’язку.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.45KХолдери:2
    0.00%
  • Рин. кап.:$0.1Холдери:1
    0.00%
  • Рин. кап.:$0.1Холдери:0
    0.00%
  • Рин. кап.:$0.1Холдери:1
    0.00%
  • Рин. кап.:$0.1Холдери:1
    0.00%
  • Закріпити