金十数据11月6日讯,一项新研究指出,评估人工智能系统能力的方法往往夸大了人工智能的性能,且缺乏科学严谨性。这项由牛津互联网学院牵头、联合其他机构三十余名研究人员开展的研究,考察了445项领先的人工智能测试(称为基准测试),这些测试常用于衡量人工智能模型在不同主题领域的表现。研究指出,这些基础测试可能缺乏可靠性,并质疑了众多基准测试结果的有效性。研究称,大量顶级基准测试未能明确其测试目标,令人担忧地重复使用既有基准的数据和测试方法,且极少采用可靠的统计方法比较不同模型结果。牛津互联网学院高级研究员、该研究的主要作者Adam Mahdi认为,这些基准测试可能会产生令人担忧的误导,他表示:“当我们要求人工智能模型执行特定任务时,我们实际测量的往往是与目标完全不同的概念或构造。”另一位主要作者亦认为,即便是公信力强的基准测试,也常常被盲目信任,值得更深入的审查。
34.4K 人気度
231.95K 人気度
4.69K 人気度
1.08K 人気度
71.58K 人気度
新しい研究によると、AIの能力は欠陥のあるテストによって過大評価されている可能性がある
金十数据11月6日讯,一项新研究指出,评估人工智能系统能力的方法往往夸大了人工智能的性能,且缺乏科学严谨性。这项由牛津互联网学院牵头、联合其他机构三十余名研究人员开展的研究,考察了445项领先的人工智能测试(称为基准测试),这些测试常用于衡量人工智能模型在不同主题领域的表现。研究指出,这些基础测试可能缺乏可靠性,并质疑了众多基准测试结果的有效性。研究称,大量顶级基准测试未能明确其测试目标,令人担忧地重复使用既有基准的数据和测试方法,且极少采用可靠的统计方法比较不同模型结果。牛津互联网学院高级研究员、该研究的主要作者Adam Mahdi认为,这些基准测试可能会产生令人担忧的误导,他表示:“当我们要求人工智能模型执行特定任务时,我们实际测量的往往是与目标完全不同的概念或构造。”另一位主要作者亦认为,即便是公信力强的基准测试,也常常被盲目信任,值得更深入的审查。