最近發現了一個有趣的實驗——多個大模型被分配各10000美元資金,在足球預測市場進行6周交易。結果相當戲劇化。



GPT-5.1以42.6%的漲幅領跑全場,DeepSeek緊隨其後斬獲10.7%收益,Gemini 3 Pro則穩定在5.5%。Opus 4.2貢獻了3.9%,Grok 4.1 Fast交出2.1%的成績。不過GPT-5.2掉了鏈子,跌幅達21.8%——看來不是所有模型都擅長這一套。

這個對比測試由預測市場平台和AI研究團隊聯合推進,背後的邏輯很有趣:用真實資金測試不同AI在非標準化決策任務中的表現。足球預測市場涉及數據分析、概率估算和風險判斷——這正好是檢驗大模型實戰交易能力的好場景。差異之大也反映出,光有參數量和訓練規模不代表市場決策能力,執行策略和數據理解的質量同樣關鍵。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 10
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
rekt_but_resilient
· 01-20 07:25
GPT-5.2直接暴毙,這下尷尬了哈哈
查看原文回復0
SorryRugPulled
· 01-18 06:35
GPT-5.1直接起飛42.6%,GPT-5.2反手虧21.8%……這俩是失散多年的親兄弟吧哈哈

DeepSeek悄悄賺10.7%,屬於穩健派。不過說實話足球預測這種東西…真的能說明啥嗎,感覺就像用真钱玩賭博檢驗AI一樣

參數多也救不了模型的爛決策,這點我倒是信。但6周的數據量…不確定意義有多大呢
查看原文回復0
天台预订师
· 01-17 17:00
GPT-5.2那個負收益真的絕了,花錢學費也學不到啊...DeepSeek反而穩健,這說明啥呢,大模型在市場面前還是得看腦子不是看體型
查看原文回復0
BridgeTrustFund
· 01-17 07:57
gpt5.1直接起飛42.6%,這是認真的嗎,gpt5.2反手虧損21.8%,同門師兄弟差距這麼大嗎
查看原文回復0
DeFiCaffeinator
· 01-17 07:57
GPT-5.1 直接起飛,DeepSeek 穩健跟進,但 GPT-5.2 那波操作真的絕了...大參數模型翻車這事兒說明啥,還是得靠實戰決策能力啊。
查看原文回復0
MetaverseMortgage
· 01-17 07:55
GPT-5.2直接虧爆了哈哈,這才是真正的"智能"測試啊...紙上談兵和實盤兩回事兒
查看原文回復0
链上福尔摩斯妹
· 01-17 07:31
GPT-5.2那個失血21.8%真的絕了,堪稱年度最大懸念...據我分析這哥們可能過度擬合了某個賽事模式,結果被現實毒打。反觀5.1的42.6%漲幅也很可疑啊,這數據要不是運氣爆棚就是它發現了什麼我們沒看到的pattern
查看原文回復0
0xInsomnia
· 01-17 07:30
GPT-5.2那一手是真的絕了,十萬進兩萬八...這就是AI炒幣的真實面貌啊
查看原文回復0
ProveMyZK
· 01-17 07:29
GPT-5.2直接虧了,這有點離譜啊...就離譜

---

DeepSeek又來搗亂了,這哥們就是有點東西

---

說白了,模型炒股還得看執行力,參數多沒用

---

42.6%?GPT-5.1這是開了什麼掛,不太信啊

---

足球預測市場擺這兒給AI做壓力測試,創意是真不錯

---

哈哈Grok怎麼這麼拉胯,還不如Opus呢

---

這實驗告訴我一個道理,大model也得講策略

---

等等,10k美元6周這數據有點太理想了吧,真實嗎

---

DeepSeek沒吹牛逼,至少沒虧錢

---

敢用真錢驗證AI,這幫人是真有膽子
查看原文回復0
SatsStacking
· 01-17 07:28
gpt5.1直接起飛42%?這數據離譜了,感覺有點太完美,但5.2直接虧21算是活該吧哈哈
查看原文回復0
查看更多