لماذا تتعثر الروبوتات دائماً في العالم الحقيقي؟ ورقتان من Qun He في CVPR يقدمان حلاً جديداً

robot
إنشاء الملخص قيد التقدم

في الآونة الأخيرة، أعلنت مؤتمر الرؤية الحاسوبية الرائد عالمياً CVPR 2026 نتائجه. وقد تم اختيار بحثين من قبل شركة群核科技 بالتعاون مع جامعة Zhejiang وYushu Tech، يتناولان على التوالي إطار التعلم المستمر للذكاء المجسد ومعيار الاستدلال المكاني لنماذج الرؤية واللغة. يُعتبر CVPR بمثابة “أوسكار عالم الرؤية الحاسوبية”، حيث يجمع سنوياً أحدث إنجازات الذكاء الاصطناعي من جميع أنحاء العالم. بلغ عدد المشاركات الفعالة في هذا المؤتمر 16092 ورقة، وتم قبول 4090 منها، بمعدل قبول قدره 25.42%.

كيف يصبح الروبوت “أذكى مع الاستخدام”؟ إطار Arcadia يحقق دورة تعلم مغلقة للذكاء المجسد

تقدم الورقة البحثية “Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning” إطار عمل كامل لدورة الحياة للذكاء المجسد، يشمل جمع البيانات، تدريب النماذج، والتطور الذاتي وتحديث المعرفة بعد النشر الفعلي. يركز هذا الإطار على كيفية تمكين الروبوتات من التعلم المستمر في بيئات متغيرة، تماماً كما يفعل الإنسان.

في هذا الإطار، استثمرت شركة群核科技 قدراتها الأساسية في إعادة بناء الفضاء وتوليده. بالاعتماد على نموذجها الضخم SpatialLM، يستطيع النظام تحليل بيانات الحساسات متعددة الوسائط التي يجمعها الروبوت بكفاءة إلى معلومات دلالية منظمة؛ ومع قدرات التوليد الفضائي في SpatialGen، يمكن للنظام تلقائياً إنشاء مشاهد ثلاثية الأبعاد محاكاة غنية. بعد ذلك، يُستخدم منصة التدريب الذكي الفضائي SpatialVerse لمحاكاة الخصائص الفيزيائية وتوسيع البيانات، مما يوفر للروبوت “ساحة تدريب” ضخمة ومتوافقة مع الفيزياء.

تشير النتائج التجريبية إلى أن إطار Arcadia أظهر أداءً ممتازاً في اختبار بدون عينات حقيقي على الروبوت البشري G1 من Yushu: حيث بلغت نسبة نجاح المهام الملاحية 46%، ونجاح المهام التشغيلية 27%. مقارنة مع الحلول المفتوحة المصدر مثل NaVILA وOpenVLA، فإن الأداء الكلي ارتفع تقريباً ثلاث مرات، مع تفوق واضح في سيناريوهات الملاحة المتعددة والتنسيق بين عدة أشياء.

هل يفهم الذكاء الاصطناعي الفضاء حقاً؟ SpatiaLQA يبني “امتحان” للاستدلال المنطقي المكاني

أما الورقة البحثية “SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models” فتركز على سؤال أكثر أساسية: هل يفهم الذكاء الاصطناعي الفضاء حقاً؟

نماذج الرؤية واللغة الحالية أصبحت قوية جداً. فهي تتقن “فهم ما يُرى” (التعرف على الأشياء، الوصف) و"الإجابة على لماذا" (الأسئلة المجردة / الاستدلال بالمعرفة العامة). لكن عند التعامل مع مهام الفضاء الفيزيائي الحقيقي، خاصة مع علاقات التغطية، والقيود على المواقع النسبية، وترتيب العمليات، تظهر نقاط ضعفها بشكل واضح.

على سبيل المثال، عندما ينفذ الروبوت مهمة تنظيم الرفوف، يحتاج إلى تحديد بدقة أي الكتب تعتبر دعائم، وأي الزينة يمكن تحريكها بشكل مستقل — وإذا أخطأ في فهم المنطق المكاني، قد يؤدي سحب كتاب واحد إلى انهيار الرف بأكمله. يوفر معيار SpatiaLQA مجموعة بيانات تقييم تغطي العديد من العلاقات المنطقية المكانية، ويحدد معايير تقييم منهجية.

ومن الجدير بالذكر أن قدرة فهم الفضاء لنموذج SpatialLM من群核科技 كانت دعماً رئيسياً في بناء معيار SpatiaLQA.

على مدى السنوات الماضية، غيرت النماذج الضخمة بشكل رئيسي العالم الرقمي. إذ أعادت تشكيل توليد وفهم النصوص والصور والفيديو بشكل عميق. لكن دخول الذكاء الاصطناعي إلى العالم الفيزيائي يتطلب القدرة الأساسية على فهم والتفاعل مع الفضاء الفيزيائي، وهو ما يفتقر إليه حالياً نماذج اللغة.

من هذا المنظور، تلامس الورقتان المختارتان موضوعين رئيسيين: إطار Arcadia يعالج مسألة “كيف يتعلم الروبوت باستمرار ليتكيف مع العالم الحقيقي”، وSpatiaLQA يجيب على سؤال “كيف نقيس مدى فهم الذكاء الاصطناعي للمنطق المكاني”. معاً، تشير إلى أن الذكاء المكاني أصبح بمثابة “المنصة الحاسمة” التي تنتقل بالذكاء الاصطناعي من العالم الرقمي إلى العالم الفيزيائي. وفي هذه العملية، تظل شركة群核科技 جسرًا هامًا يربط بين العالمين الرقمي والفيزيائي.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.44Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.44Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.44Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت