掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

新研究指出:AI能力可能因測試存在缺陷而被高估

robot
摘要生成中

金十數據11月6日訊,一項新研究指出,評估人工智慧系統能力的方法往往誇大了人工智慧的性能,且缺乏科學嚴謹性。這項由牛津互聯網學院牽頭、聯合其他機構三十餘名研究人員開展的研究,考察了445項領先的人工智慧測試(稱為基準測試),這些測試常用於衡量人工智慧模型在不同主題領域的表現。研究指出,這些基礎測試可能缺乏可靠性,並質疑了眾多基準測試結果的有效性。研究稱,大量頂級基準測試未能明確其測試目標,令人擔憂地重複使用既有基準的數據和測試方法,且極少採用可靠的統計方法比較不同模型結果。牛津互聯網學院高級研究員、該研究的主要作者Adam Mahdi認為,這些基準測試可能會產生令人擔憂的誤導,他表示:「當我們要求人工智慧模型執行特定任務時,我們實際測量的往往是與目標完全不同的概念或構造。」另一位主要作者亦認為,即便是公信力強的基準測試,也常常被盲目信任,值得更深入的審查。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
相關話題
#
ai
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)