أطلق Tsinghua KEG Lab و Zhipu الذكاء الاصطناعي بشكل مشترك CogAgent ، وهو نموذج كبير لفهم الصور

2023-12-28 08:27:29

تعاونت Bit News Tsinghua KEG Lab مؤخرا مع Zhipu الذكاء الاصطناعي لإطلاق جيل جديد من CogAgent الكبير لفهم الصور. استنادا إلى CogVLM الذي تم إطلاقه مسبقا ، يستخدم النموذج طرائق مرئية بدلا من النص لتوفير تصور أكثر شمولا ومباشرة لواجهة المستخدم الرسومية من خلال وكيل واجهة المستخدم الرسومية المرئية للتخطيط واتخاذ القرار. يذكر أن CogAgent يمكن أن يقبل إدخال صورة عالية الدقة 1120×1120 ، مع الإجابة على الأسئلة المرئية ، وتحديد المواقع المرئية (التأريض) ، وعامل واجهة المستخدم الرسومية وغيرها من القدرات ، في 9 قوائم فهم الصور الكلاسيكية (بما في ذلك VQAv2 ، STVQA ، DocVQA ، TextVQA ، MM-VET ، POPE ، إلخ) حققت النتيجة الأولى في القدرة العامة.

VET0.68%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

0/400

لا توجد تعليقات

WendyCS

المواضيع الرائجةعرض المزيد
#Gateperpdexislive
11.7K درجة الشعبية
#Joingrowthpointsdrawtowiniphone17
69.6K درجة الشعبية
#Cryptomarketrebound
201.7K درجة الشعبية
#ShowMyAlphaPoints
165.3K درجة الشعبية
#Fedofficialsspeakup
16K درجة الشعبية

تثبيت

خريطة الموقع