تُشير بيانات “جين十” في 6 نوفمبر إلى أن دراسة جديدة أظهرت أن الطرق المستخدمة لتقييم قدرات أنظمة الذكاء الاصطناعي غالبًا ما تُبالغ في أداء الذكاء الاصطناعي وتفتقر إلى الصرامة العلمية. أجرت الدراسة، التي قادها معهد الإنترنت في أكسفورد وشارك فيها أكثر من ثلاثين باحثًا من مؤسسات أخرى، فحصًا لـ 445 اختبارًا رائدًا في مجال الذكاء الاصطناعي (يُطلق عليها اختبارات المعيار)، والتي تُستخدم عادة لقياس أداء نماذج الذكاء الاصطناعي في مجالات موضوعية مختلفة. وأشارت الدراسة إلى أن هذه الاختبارات الأساسية قد تفتقر إلى الموثوقية، وشككت في فعالية العديد من نتائج اختبارات المعيار. وذكرت الدراسة أن العديد من اختبارات المعيار العليا فشلت في توضيح أهدافها بشكل واضح، مع وجود مخاوف من تكرار استخدام بيانات وأساليب اختبار قديمة، وقلة الاعتماد على طرق إحصائية موثوقة لمقارنة نتائج النماذج المختلفة. واعتبر الباحث البارز في معهد الإنترنت بأكسفورد، والمؤلف الرئيسي للدراسة، آدم مادي، أن هذه الاختبارات قد تؤدي إلى نتائج مضللة، وقال: “عندما نطلب من نموذج الذكاء الاصطناعي أداء مهمة معينة، فإننا في الواقع نقيس مفاهيم أو تراكيب مختلفة تمامًا عن الهدف الحقيقي.” واعتبر مؤلف آخر أن حتى الاختبارات ذات المصداقية العالية غالبًا ما تُثقَّل بشكل أعمى، مما يستدعي إجراء مراجعة أعمق.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أبحاث جديدة تشير إلى أن قدرات الذكاء الاصطناعي قد تكون مبالغًا فيها بسبب اختبارات غير كاملة أو بها عيوب
تُشير بيانات “جين十” في 6 نوفمبر إلى أن دراسة جديدة أظهرت أن الطرق المستخدمة لتقييم قدرات أنظمة الذكاء الاصطناعي غالبًا ما تُبالغ في أداء الذكاء الاصطناعي وتفتقر إلى الصرامة العلمية. أجرت الدراسة، التي قادها معهد الإنترنت في أكسفورد وشارك فيها أكثر من ثلاثين باحثًا من مؤسسات أخرى، فحصًا لـ 445 اختبارًا رائدًا في مجال الذكاء الاصطناعي (يُطلق عليها اختبارات المعيار)، والتي تُستخدم عادة لقياس أداء نماذج الذكاء الاصطناعي في مجالات موضوعية مختلفة. وأشارت الدراسة إلى أن هذه الاختبارات الأساسية قد تفتقر إلى الموثوقية، وشككت في فعالية العديد من نتائج اختبارات المعيار. وذكرت الدراسة أن العديد من اختبارات المعيار العليا فشلت في توضيح أهدافها بشكل واضح، مع وجود مخاوف من تكرار استخدام بيانات وأساليب اختبار قديمة، وقلة الاعتماد على طرق إحصائية موثوقة لمقارنة نتائج النماذج المختلفة. واعتبر الباحث البارز في معهد الإنترنت بأكسفورد، والمؤلف الرئيسي للدراسة، آدم مادي، أن هذه الاختبارات قد تؤدي إلى نتائج مضللة، وقال: “عندما نطلب من نموذج الذكاء الاصطناعي أداء مهمة معينة، فإننا في الواقع نقيس مفاهيم أو تراكيب مختلفة تمامًا عن الهدف الحقيقي.” واعتبر مؤلف آخر أن حتى الاختبارات ذات المصداقية العالية غالبًا ما تُثقَّل بشكل أعمى، مما يستدعي إجراء مراجعة أعمق.