Un nuevo estudio señala que la forma en que se evalúa la capacidad de los sistemas de inteligencia artificial a menudo exagera su rendimiento y carece de rigor científico. Este estudio, liderado por la Oxford Internet Institute y realizado en colaboración con más de treinta investigadores de otras instituciones, examinó 445 pruebas de referencia líderes en el campo de la inteligencia artificial, las cuales se utilizan comúnmente para medir el desempeño de los modelos de IA en diferentes áreas temáticas. La investigación indica que estas pruebas básicas pueden carecer de fiabilidad y cuestiona la validez de muchos resultados de los benchmarks.
El estudio señala que muchas de las pruebas de referencia de alto nivel no tienen objetivos claros, y que existe una preocupante repetición del uso de datos y métodos de prueba ya existentes, además de que rara vez se emplean métodos estadísticos confiables para comparar los resultados de diferentes modelos. Adam Mahdi, investigador senior de la Oxford Internet Institute y principal autor del estudio, expresó que estos benchmarks pueden ser potencialmente engañosos y advirtió: “Cuando pedimos a un modelo de IA que realice una tarea específica, lo que realmente medimos a menudo es un concepto o constructo completamente diferente al objetivo original”. Otro de los autores principales también señaló que, incluso en los benchmarks con buena reputación, a menudo se confía ciegamente en ellos, lo que requiere una revisión más profunda.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Nuevos estudios indican que las capacidades de la IA podrían estar sobrevaloradas debido a pruebas defectuosas.
Un nuevo estudio señala que la forma en que se evalúa la capacidad de los sistemas de inteligencia artificial a menudo exagera su rendimiento y carece de rigor científico. Este estudio, liderado por la Oxford Internet Institute y realizado en colaboración con más de treinta investigadores de otras instituciones, examinó 445 pruebas de referencia líderes en el campo de la inteligencia artificial, las cuales se utilizan comúnmente para medir el desempeño de los modelos de IA en diferentes áreas temáticas. La investigación indica que estas pruebas básicas pueden carecer de fiabilidad y cuestiona la validez de muchos resultados de los benchmarks.
El estudio señala que muchas de las pruebas de referencia de alto nivel no tienen objetivos claros, y que existe una preocupante repetición del uso de datos y métodos de prueba ya existentes, además de que rara vez se emplean métodos estadísticos confiables para comparar los resultados de diferentes modelos. Adam Mahdi, investigador senior de la Oxford Internet Institute y principal autor del estudio, expresó que estos benchmarks pueden ser potencialmente engañosos y advirtió: “Cuando pedimos a un modelo de IA que realice una tarea específica, lo que realmente medimos a menudo es un concepto o constructo completamente diferente al objetivo original”. Otro de los autores principales también señaló que, incluso en los benchmarks con buena reputación, a menudo se confía ciegamente en ellos, lo que requiere una revisión más profunda.