Bit News Tsinghua KEG Lab recentemente cooperou com Zhipu AI para lançar em conjunto uma nova geração de compreensão de imagem modelo grande CogAgent. Baseado no CogVLM lançado anteriormente, o modelo usa modalidades visuais em vez de texto para fornecer uma perceção mais abrangente e direta da interface GUI através de um agente GUI visual para planejamento e tomada de decisão. É relatado que o CogAgent pode aceitar entrada de imagem de alta resolução 1120×1120, com resposta visual a perguntas, posicionamento visual (Grounding), GUI Agent e outros recursos, em 9 listas clássicas de compreensão de imagem (incluindo VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) alcançou o primeiro resultado em habilidade geral.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Tsinghua KEG Lab e Zhipu AI lançaram conjuntamente o CogAgent, um modelo de compreensão de imagem grande
Bit News Tsinghua KEG Lab recentemente cooperou com Zhipu AI para lançar em conjunto uma nova geração de compreensão de imagem modelo grande CogAgent. Baseado no CogVLM lançado anteriormente, o modelo usa modalidades visuais em vez de texto para fornecer uma perceção mais abrangente e direta da interface GUI através de um agente GUI visual para planejamento e tomada de decisão. É relatado que o CogAgent pode aceitar entrada de imagem de alta resolução 1120×1120, com resposta visual a perguntas, posicionamento visual (Grounding), GUI Agent e outros recursos, em 9 listas clássicas de compreensão de imagem (incluindo VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) alcançou o primeiro resultado em habilidade geral.