DeepSeek no início do ano lançou o seu mais recente artigo 《mHC:Manifold-Constrained Hyper-Connections》, cujo fundador Liang Wenfeng também participou. Este é um artigo técnico aprofundado sobre a arquitetura de baixo nível, com os principais destaques que podem ser entendidos assim:



Primeiro, a estabilidade do treino de grandes modelos foi significativamente aprimorada. O HC (conexões residuais aprimoradas) anterior tinha um desempenho realmente impressionante, mas apresentava um ponto problemático — o processo de treino era propenso a falhas. O mHC resolveu esse problema através de um mecanismo de restrição de variedades, permitindo que o modelo mantenha a estabilidade durante o treino em estruturas mais profundas.

Em segundo lugar, isso não é apenas uma acumulação de desempenho, mas uma reflexão sobre a arquitetura fundamental. Ao introduzir uma nova topologia de hiperconexões, o modelo melhora sua capacidade de generalização e robustez, mantendo a eficiência computacional.

Simplificando, o mHC permite que grandes modelos sejam estáveis, rápidos e precisos ao mesmo tempo. Isso tem uma certa relevância para a direção de otimização de modelos em toda a indústria.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Republicar
  • Partilhar
Comentar
0/400
BrokenRugsvip
· 01-04 12:43
Uma solução integrada de estabilidade, precisão e velocidade, a DeepSeek realmente atingiu um novo patamar desta vez --- Qual é o princípio por trás da restrição de variedade? Pode explicar para pessoas comuns? --- Mais uma vez inovação na arquitetura e equilíbrio de desempenho, essa combinação realmente foi bem-sucedida --- Finalmente alguém abordou o problema do colapso no treinamento, curti --- Sinto que essa abordagem de aumentar os parâmetros é muito mais confiável --- Você tem dados concretos sobre a melhoria na capacidade de generalização, ou vai ter que esperar pelos detalhes do artigo? --- As coisas envolvidas na participação de Liang Wenfeng, ao dar uma olhada rápida, já têm aquele sabor --- Pensar novamente na arquitetura, isso sim é avanço tecnológico --- Sinto que o teto da indústria foi elevado mais um degrau --- Treinamento estável é realmente um grande problema, seria incrível se isso fosse resolvido de forma definitiva
Ver originalResponder0
OneBlockAtATimevip
· 01-04 06:54
Finalmente alguém esclareceu essa questão, treinar sem colapsar é o caminho principal DeepSeek realmente pensou na camada algorítmica desta vez, não é apenas uma questão de acumular parâmetros O artigo em que Liang Wenfeng participou é diferente, a estabilidade que demorou tanto para ser resolvida finalmente foi conquistada Rodar de forma estável, rápido e preciso, só esses três palavras, toda a indústria deveria refletir sobre isso Essa é a verdadeira inovação, não aquelas propagandas vazias e superficiais
Ver originalResponder0
DoomCanistervip
· 01-04 06:54
A estabilidade finalmente está a ser levada a sério, a abordagem anterior realmente não funcionava Corre de forma estável, rápida e precisa, parece bastante promissor, mas será que realmente aguenta? A abordagem de restrição de variedades é interessante, parece que encontramos o caminho certo Mais uma vez, Liang Wenfeng envolvido? A equipa do DeepSeek realmente está a dar o seu melhor Aliás, será que essas melhorias podem ser aplicadas na prática do treino, ou vão acabar sendo apenas teoria para artigos acadêmicos
Ver originalResponder0
SerumSurfervip
· 01-04 06:54
Que porra, Liang Wenfeng voltou a fazer algo, o problema de estabilidade finalmente foi resolvido? --- mHC realmente parece forte, essa técnica de restrição de variedade eu preciso entender melhor --- Mais uma vez DeepSeek, esse ritmo está realmente fora de controle --- Treinar sem travar é realmente uma necessidade urgente, por mais que o desempenho seja forte, não adianta --- Espera aí, como exatamente a estrutura topológica de hiperconexão é implementada --- Estabilidade, velocidade e precisão, se realmente conseguir fazer isso, vale a pena elogiar --- Mais um artigo, a produção do DeepSeek este ano está realmente forte --- A restrição de variedade, parece uma tecnologia de ponta... --- Resumindo, o bug que não foi resolvido agora foi resolvido, né --- Isso ajuda modelos pequenos ou é só uma bênção para modelos grandes
Ver originalResponder0
FrogInTheWellvip
· 01-04 06:54
梁文锋 desta vez está mesmo a fazer coisas, a estabilidade tem sido sempre um ponto fraco --- Mais uma inovação na arquitetura, o DeepSeek realmente está a dedicar-se --- Restrição de variedade? Parece avançado, mas o efeito é realmente ótimo --- Treinar sem colapsar é fundamental, antes o HC realmente tinha problemas --- A generalização e a robustez melhoraram? Então realmente é diferente --- Rodar de forma estável, rápida e precisa, uma frase que resume perfeitamente, hein --- Este produto pode ser aproveitado por pequenas equipas, ou só grandes empresas é que conseguem usar --- A topologia de hiperconexão parece estar a resolver problemas de base de forma séria --- A eficiência de cálculo sem perder desempenho, essa é a verdadeira inovação --- O DeepSeek vai entrar numa nova fase, as outras empresas vão conseguir acompanhar ou não
Ver originalResponder0
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)