Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Tsinghua KEG Lab y Zhipu AI lanzaron conjuntamente CogAgent, un modelo de comprensión de imágenes de gran tamaño
Bit News Tsinghua KEG Lab cooperó recientemente con Zhipu AI para lanzar conjuntamente una nueva generación de CogAgent de modelo grande de comprensión de imágenes. Basado en el CogVLM lanzado anteriormente, el modelo utiliza modalidades visuales en lugar de texto para proporcionar una percepción más completa y directa de la interfaz gráfica de usuario a través de un agente visual de la interfaz gráfica de usuario para la planificación y la toma de decisiones. Se informa que CogAgent puede aceptar una entrada de imagen de alta resolución 1120×1120, con respuesta visual a preguntas, posicionamiento visual (Grounding), GUI Agent y otras capacidades, en 9 listas clásicas de comprensión de imágenes (incluidas VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) ha logrado el primer resultado en la capacidad general.