Série Xiaomi MiMo-V2.5 de código aberto: 1T de parâmetros sob licença MIT, eficiência de tokens superando GPT-5.4 no ClawEval

robot
Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, a equipa Xiaomi MiMo open-soubeu a série de grandes modelos MiMo-V2.5, que inclui dois modelos, ambos sob licença MIT, suportando implantação comercial, treino contínuo e ajuste fino, com uma janela de contexto de até 1 milhão de tokens. O MiMo-V2.5-Pro é um modelo puramente de texto MoE (Arquitetura de Mistura de Especialistas) com um total de 1,02 triliões de parâmetros e 42 bilhões de parâmetros ativos; o MiMo-V2.5 é um modelo multimodal nativo com um total de 310 bilhões de parâmetros e 15 bilhões de parâmetros ativos, suportando compreensão de texto, imagem, vídeo e áudio. O MiMo-V2.5-Pro destina-se principalmente a tarefas complexas de agentes e programação. Na avaliação ClawEval, o V2.5-Pro alcançou um índice de aprovação de 64%, atingindo níveis comparáveis enquanto consumia apenas cerca de 70.000 tokens por trajetória de tarefa, o que é aproximadamente 40% a 60% menos do que Claude Opus 4.6, Gemini 3.1 Pro e GPT-5.4. A pontuação verificada do SWE-bench é 78,9. Em um caso apresentado no blog oficial, o V2.5-Pro implementou autonomamente um compilador completo de SysY para RISC-V para um projeto de princípios de compiladores na Universidade de Pequim, levando 4,3 horas e 672 chamadas de ferramentas, atingindo uma pontuação perfeita de 233/233 em um conjunto de testes ocultos. O MiMo-V2.5 foi projetado para cenários de agentes multimodais, equipado com um codificador visual dedicado (ViT de 729 milhões de parâmetros) e um codificador de áudio (261 milhões de parâmetros), obtendo uma pontuação de 62,3 na subcategoria geral do Claw-Eval. Ambos os modelos utilizam uma arquitetura mista de atenção de janela deslizante (SWA) e atenção global (GA), juntamente com um módulo de previsão de múltiplos tokens (MTP) de 3 camadas (prevendo múltiplos tokens de uma só vez para acelerar a inferência). Os pesos foram lançados no Hugging Face. Juntamente com o lançamento open-source, a equipa MiMo lançou o ‘Programa de Incentivo ao Criador de Trilhão de Tokens Orbit’, oferecendo um total de 100 trilhões de tokens de quota gratuita para utilizadores globais durante 30 dias. Desenvolvedores individuais, equipas e empresas podem candidatar-se na página do evento, com um período de avaliação de cerca de 3 dias úteis. Após aprovação, os benefícios serão creditados na forma de Plano de Tokens ou subsídios, que podem ser utilizados diretamente com ferramentas de programação como Claude Code e Cursor.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar