Tsinghua KEG Lab e Zhipu AI lançaram conjuntamente o CogAgent, um modelo de compreensão de imagem grande

2023-12-28 08:27:29

Bit News Tsinghua KEG Lab recentemente cooperou com Zhipu AI para lançar em conjunto uma nova geração de compreensão de imagem modelo grande CogAgent. Baseado no CogVLM lançado anteriormente, o modelo usa modalidades visuais em vez de texto para fornecer uma perceção mais abrangente e direta da interface GUI através de um agente GUI visual para planejamento e tomada de decisão. É relatado que o CogAgent pode aceitar entrada de imagem de alta resolução 1120×1120, com resposta visual a perguntas, posicionamento visual (Grounding), GUI Agent e outros recursos, em 9 listas clássicas de compreensão de imagem (incluindo VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) alcançou o primeiro resultado em habilidade geral.

VET-1.76%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#July PPI Beats Expectations
19k Popularidade
#ETH ETFs Top $30B
19k Popularidade
#Gate Alpha Peak Trading Competition
140k Popularidade
#Gate Releases August Reserves Report
17k Popularidade
#BTC Hits New ATH
86k Popularidade

Pino