أطلق Tsinghua KEG Lab و Zhipu الذكاء الاصطناعي بشكل مشترك CogAgent ، وهو نموذج كبير لفهم الصور

تعاونت Bit News Tsinghua KEG Lab مؤخرا مع Zhipu الذكاء الاصطناعي لإطلاق جيل جديد من CogAgent الكبير لفهم الصور. استنادا إلى CogVLM الذي تم إطلاقه مسبقا ، يستخدم النموذج طرائق مرئية بدلا من النص لتوفير تصور أكثر شمولا ومباشرة لواجهة المستخدم الرسومية من خلال وكيل واجهة المستخدم الرسومية المرئية للتخطيط واتخاذ القرار. يذكر أن CogAgent يمكن أن يقبل إدخال صورة عالية الدقة 1120×1120 ، مع الإجابة على الأسئلة المرئية ، وتحديد المواقع المرئية (التأريض) ، وعامل واجهة المستخدم الرسومية وغيرها من القدرات ، في 9 قوائم فهم الصور الكلاسيكية (بما في ذلك VQAv2 ، STVQA ، DocVQA ، TextVQA ، MM-VET ، POPE ، إلخ) حققت النتيجة الأولى في القدرة العامة.

VET-4.71%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت