Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Tsinghua KEG Lab і Zhipu AI спільно запустили CogAgent, велику модель для розуміння зображень
Bit News Tsinghua KEG Lab нещодавно співпрацювала з Zhipu AI, щоб спільно запустити нове покоління великої моделі CogAgent, що розуміє зображення. Заснована на раніше запущеному CogVLM, модель використовує візуальні модальності замість тексту, щоб забезпечити більш повне і безпосереднє сприйняття інтерфейсу графічного інтерфейсу за допомогою візуального графічного агента для планування і прийняття рішень. Повідомляється, що CogAgent може приймати вхідні дані зображення з високою роздільною здатністю 1120×1120, з візуальними відповідями на питання, візуальним позиціонуванням (Grounding), GUI Agent та іншими можливостями, в 9 класичних списках розуміння зображень (включаючи VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE і т.д.) досяг першого результату в загальних здібностях.