新研究指出：AI能力可能因測試存在缺陷而被高估

Gate News bot

2025-11-06 12:51:57

摘要生成中

金十數據11月6日訊，一項新研究指出，評估人工智慧系統能力的方法往往誇大了人工智慧的性能，且缺乏科學嚴謹性。這項由牛津互聯網學院牽頭、聯合其他機構三十餘名研究人員開展的研究，考察了445項領先的人工智慧測試（稱為基準測試），這些測試常用於衡量人工智慧模型在不同主題領域的表現。研究指出，這些基礎測試可能缺乏可靠性，並質疑了眾多基準測試結果的有效性。研究稱，大量頂級基準測試未能明確其測試目標，令人擔憂地重複使用既有基準的數據和測試方法，且極少採用可靠的統計方法比較不同模型結果。牛津互聯網學院高級研究員、該研究的主要作者Adam Mahdi認為，這些基準測試可能會產生令人擔憂的誤導，他表示：「當我們要求人工智慧模型執行特定任務時，我們實際測量的往往是與目標完全不同的概念或構造。」另一位主要作者亦認為，即便是公信力強的基準測試，也常常被盲目信任，值得更深入的審查。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

相關話題

留言

0/400

暫無留言

Gate News bot

熱門話題查看更多
#廣場發幣瓜分千U獎池
3.68萬熱度
#加密市場回調
23.24萬熱度
#隱私幣生態逆勢上漲
5504 熱度
#香港首個代幣化基金推出
1249 熱度
#參與創作者認證計劃月領$10,000
7.48萬熱度

熱門 Gate Fun查看更多

1
hoodrobin
市值:$3989.65持有人數:1
0.00%
2
CRNCryptoRaccoon
市值:$3989.77持有人數:2
0.06%
3
BNBHolderBNBHolder
市值:$5747.15持有人數:2
7.20%
4
BLUSH低买高卖
市值:$3927.58持有人數:1
0.00%
5
HorseHorse
市值:$4006.89持有人數:1
0.00%