З моменту запуску o1 найбільшою проблемою користувачів є те, що він "занадто розговірливий".



Я просто хотів виправити простий баг, а він видав мені три розділи контексту, дві схеми рішення плюс обробку помилок, і ще пожелав удачі.

Я шукав опечатку на рядку 12, а в результаті був змушений переглянути правила Python для найменування змінних.

Відповідальність за це лежить на RLHF. Анотатори мають тенденцію ставити вищі оцінки довгим відповідям, вважаючи, що більше тексту виглядає професійніше.

Тому модель намагається нагромаджувати "здавалось би корисне" крам, тоді як справжня суть інформації приховується.

Подивіться на Claude – він у цьому сенсі набагато розумніший, він знає, яку довжину використовувати для кожного типу питань.

Найбільше бовтає гаманець: o1 коштує $60 за 1M токенів на виході, питання, на яке можна відповісти за 100 токенів, він розтягує до 500, збільшуючи вартість в п'ять разів.

Тепер потрібно явно додавати "тільки код" до запиту, але навіть це не завжди спрацьовує.

Нинішній стан моделі такий: надзвичайно розумна, але емоційний інтелект вимкнений – модель просто не розуміє, коли потрібно мовчати.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити