Новое исследование показывает: возможности ИИ могут быть преувеличены из-за недостаточно точных тестов

GateNewsBot

2025-11-06 12:51:57

Генерация тезисов в процессе

11月6日讯，金十数据——一项新研究指出，评估人工智能系统能力的方法往往夸大了人工智能的性能，且缺乏科学严谨性。这项由牛津互联网学院牵头、联合其他机构三十余名研究人员开展的研究，考察了445项领先的人工智能测试（称为基准测试），这些测试常用于衡量人工智能模型在不同主题领域的表现。研究指出，这些基础测试可能缺乏可靠性，并质疑了众多基准测试结果的有效性。研究称，大量顶级基准测试未能明确其测试目标，令人担忧地重复使用既有基准的数据和测试方法，且极少采用可靠的统计方法比较不同模型结果。牛津互联网学院高级研究员、该研究的主要作者Adam Mahdi认为，这些基准测试可能会产生令人担忧的误导，他表示：“当我们要求人工智能模型执行特定任务时，我们实际测量的往往是与目标完全不同的概念或构造。”另一位主要作者亦认为，即便是公信力强的基准测试，也常常被盲目信任，值得更深入的审查。

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .