Нещодавно був виявлений цікавий експеримент — кілька великих моделей були виділені по 10000 доларів США для торгівлі на футбольному прогнозному ринку протягом 6 тижнів. Результати виявилися досить драматичними.



GPT-5.1 з приростом 42.6% лідирує в усіх показниках, DeepSeek йде слідом і приносить 10.7% прибутку, Gemini 3 Pro стабільно на рівні 5.5%. Opus 4.2 приніс 3.9%, Grok 4.1 Fast показав 2.1%. Однак GPT-5.2 зірвався, знизившись на 21.8% — здається, не всі моделі добре справляються із цим.

Цей порівняльний тест був проведений у співпраці платформи прогнозного ринку та команди досліджень штучного інтелекту, і логіка за цим дуже цікава: тестування різних AI на реальних коштах у нестандартних задачах прийняття рішень. Футбольний прогнозний ринок включає аналіз даних, оцінку ймовірностей та управління ризиками — саме тут чудово можна перевірити практичні навички великих моделей у торгівлі. Величина різниці також показує, що лише параметри та масштаб тренування не визначають здатність до ринкових рішень, важливі також якість виконання стратегій і розуміння даних.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
rekt_but_resilientvip
· 01-20 07:25
GPT-5.2 без попередження зупинився, тепер незручно, ха-ха
Переглянути оригіналвідповісти на0
SorryRugPulledvip
· 01-18 06:35
GPT-5.1 безпосередньо зросла на 42.6%, GPT-5.2 повернулася з втратами на 21.8%… Це, мабуть, двоюрідні брати, що давно розлучилися, ха-ха

DeepSeek тихо заробила 10.7%, належить до стабільної групи. Але чесно кажучи, щось на кшталт футбольних прогнозів… дійсно може щось пояснити? Відчувається, ніби використовують реальні гроші для гри в азартні ігри, щоб перевірити AI

Багато параметрів не врятують погані рішення моделі, у цьому я впевнений. Але 6 тижнів даних… не зовсім зрозуміло, наскільки це має значення
Переглянути оригіналвідповісти на0
RooftopReservervip
· 01-17 17:00
GPT-5.2 той негативний дохід дійсно вражає, за гроші навчитися не можна... DeepSeek навпаки стабільний, що це означає, великі моделі на ринку все ще залежать від розуму, а не від розмірів
Переглянути оригіналвідповісти на0
BridgeTrustFundvip
· 01-17 07:57
gpt5.1 безпосередньо злетів на 42.6%, це серйозно, gpt5.2 у зворотному напрямку втратив 21.8%, чи така велика різниця між однокурсниками?
Переглянути оригіналвідповісти на0
DeFiCaffeinatorvip
· 01-17 07:57
GPT-5.1 безпосередньо стартує, DeepSeek стабільно слідує за ним, але операція з GPT-5.2 дійсно була неймовірною... Провал великомасштабних моделей показує, що все ще потрібно покладатися на практичні навички прийняття рішень.
Переглянути оригіналвідповісти на0
MetaverseMortgagevip
· 01-17 07:55
GPT-5.2 безпосередньо прогорів, ха-ха, це справжнє "розумне" тестування... Теорія і практика — це зовсім різні речі
Переглянути оригіналвідповісти на0
ChainSherlockGirlvip
· 01-17 07:31
GPT-5.2 той, що втратив 21.8%, справді вражає, можна назвати найбільшим сюрпризом року... За моїм аналізом, цей хлопець, ймовірно, занадто підганяв під певний режим змагань, і в результаті його вдарила реальність. Порівняно з 5.1, зростання на 42.6% також викликає підозру — якщо ця цифра не є результатом неймовірного везіння, то він, мабуть, виявив якусь закономірність, яку ми не помітили.
Переглянути оригіналвідповісти на0
0xInsomniavip
· 01-17 07:30
GPT-5.2 ця стратегія справді вражає, з десяти тисяч до двадцяти восьми тисяч... Це справжнє обличчя AI у криптовалюті
Переглянути оригіналвідповісти на0
ProveMyZKvip
· 01-17 07:29
GPT-5.2 прямо прогорів, це трохи нереально... просто неймовірно

---

DeepSeek знову втручається, цей хлопець дійсно щось вміє

---

Говорячи прямо, торгівля моделями все ще залежить від виконавчої здатності, багато параметрів без сенсу

---

42.6%? GPT-5.1 — це якийсь хак, не дуже вірю

---

Ринок футбольних прогнозів тут для тестування навантаження AI, ідея дійсно класна

---

Ха-ха, Grok так погано працює, навіть гірше за Opus

---

Цей експеримент навчив мене одному — навіть великі моделі потрібно стратегічно використовувати

---

Зачекайте, 10 тисяч доларів за 6 тижнів — це занадто ідеальні дані, чи реальні вони?

---

DeepSeek не хвалиться, принаймні не програв грошей

---

Хтось наважується перевірити AI на реальні гроші, ці люди справді мають сміливість
Переглянути оригіналвідповісти на0
SatsStackingvip
· 01-17 07:28
gpt5.1 безпосередньо злітає на 42%?Ці дані неймовірні, здається, трохи занадто ідеальні, але 5.2 безпосередньо втрачає 21 — це, мабуть, заслужено, ха-ха
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріпити