Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Launchpad
Chegue cedo para o próximo grande projeto de token
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
DeepSeek nova tese: Como a arquitetura de hiperconexão com restrição de variedades resolve os desafios de treino de redes profundas
【链文】DeepSeek最近发布 da nova publicação chamou a atenção do círculo técnico. Eles propuseram uma nova arquitetura chamada restrição de manifold de hiperconexão (mHC), cujo objetivo principal é bastante direto — resolver dois pontos problemáticos das redes de hiperconexão existentes (HC): instabilidade no treino e escalabilidade limitada.
A raiz do problema está na violação da propriedade de mapeamento de identidade pelas técnicas de HC. A solução da DeepSeek é mapear o espaço de conexões residuais de HC para um determinado manifold, assim podendo recuperar a propriedade de mapeamento de identidade. Parece um pouco abstrato, mas, em resumo, trata-se de usar mapeamentos matemáticos mais inteligentes para tornar o treino de redes profundas mais estável e com maior escalabilidade.
A publicação também combina otimizações de infraestrutura para garantir eficiência prática, e os resultados experimentais mostram melhorias de desempenho evidentes, além de uma escalabilidade bastante superior. Isso significa que, ao usar estruturas de rede mais profundas, o processo de treino se torna mais controlável.
A DeepSeek acredita que o mHC é uma extensão flexível e prática da tecnologia HC, e esse trabalho não só ajuda a indústria a compreender mais profundamente o design de arquiteturas topológicas, como também aponta uma direção promissora para a evolução de grandes modelos. Essa publicação foi realizada em colaboração por 解振达, 韦毅轩, 曹焕琪 e 梁文锋, entre outros.
A longo prazo, avanços nesse tipo de infraestrutura terão impactos profundos na estabilidade e escalabilidade de grandes modelos.
Mais esses truques matemáticos obscuros? Na verdade, é só fazer a rede não perder a conexão
A restrição de variedades eu realmente não entendo, mas os dados experimentais parecem bons, então tudo bem
Finalmente a rede profunda consegue treinar de forma estável? Agora vai ser uma corrida para ver quem consegue acompanhar
Mas voltando ao ponto, se a escalabilidade realmente puder ser resolvida, a implementação prática será muito mais rápida no futuro
Se esta tese for realmente confiável, isso mostra que ainda há muitos obstáculos a preencher na camada fundamental da IA
Espera aí, qual é a eficiência real de rodar isso na prática? Não vai ser só bonito no papel novamente
A nova arquitetura parece incrível, mas o seu desempenho real só será confirmado pelo mercado, de qualquer forma, eu começo a rir com esperança.
Essa lógica é igual à minha negociação de criptomoedas, teoria perfeita, realidade desmorona, haha.
Esta rodada do DeepSeek está, na verdade, preparando o terreno para o treino de grandes modelos, a estabilidade das redes profundas aumentou, e a probabilidade de surgirem modelos de nível monstro é maior.
Para ser honesto, se essa pesquisa fundamental for bem feita, quem vai se beneficiar são as grandes empresas, nós investidores individuais só podemos comer as sobras.
Se realmente conseguir estabilizar o treinamento profundo, então é preciso analisar bem os dados experimentais, para não acontecer de o artigo parecer bom, mas na prática ser um fracasso
Recuperação da característica de mapeamento de identidade... aguardemos o feedback do ambiente de produção, não há problema em elogiar depois
Os artigos do Deep estão ficando cada vez mais competitivos, se realmente houver um avanço na escalabilidade, isso será uma ótima notícia para o custo de treinamento de grandes modelos
Preciso analisar cuidadosamente esse conjunto de mapeamentos matemáticos, parece que mais uma vez vamos precisar relacionar teoria com prática por um bom tempo
Ainda não há novidades nos dados on-chain, nós, investidores de varejo, vamos ficar de olho primeiro para não acabar sendo os últimos a entrar. Mas, falando nisso, essa onda do DeepSeek realmente está no centro da tempestade, quem apostou cedo pode estar rindo agora.
A restrição de manifold parece muito avançada, mas quão longe essa inovação de arquitetura está de uma aplicação prática real? Existem grandes instituições já fazendo arbitragem nessa área?
Para ser honesto, avanços puramente técnicos muitas vezes são exageradamente promovidos, minha aposta é na reação do mercado, não no próprio artigo. Assim que as taxas de mineração começarem a subir, é hora de eu sair fora.
Quando será lançado o último dado de escalabilidade? Há uma comparação detalhada com soluções similares? Isso é o que realmente me interessa.
---
A DeepSeek fez um novo trabalho e parece que está a reparar o antigo poço da tecnologia HC
---
Depois de falar durante muito tempo, é para tornar o treino mais estável, e quão mais rápido pode realmente correr?
---
Não percebo muito sobre o mapeamento isométrico, e sinto que a pessoa que escreve o artigo está a complicar coisas simples
---
Escalabilidade superior? Quantos pontos percentuais são mais rápidos do que o plano atual, existe um referencial?
---
Outra arquitetura "revolucionária", à espera de ver se pode ser usada em cenários reais
---
A palavra restrição do coletor soa muito cara, e não sei quanto custa a funcionar
---
A otimização de algoritmos é sempre "muito boa em teoria, mas depende da GPU na prática"
---
Parece ser atenta, mas sinto que o papel está cheio de flores e dos detalhes
---
O problema de estabilidade do treino de redes profundas foi resolvido, então e quanto à ocupação da memória de vídeo? Esta solução normalmente é um grande sucesso
Restrição de manifold? Em linguagem simples, é para evitar que o treinamento da rede colapse, de qualquer forma eu não entendi hahaha
Redes profundas ficaram mais estáveis, isso ajuda na otimização de mineração?
Mapeamento matemático, mapeamento, mapeamento, isso pode melhorar diretamente a eficiência do cálculo de taxas de gás não?
DeepSeek está novamente mexendo na arquitetura do modelo, esse ritmo realmente não dá para acompanhar
Só quero saber se no final vai conseguir rodar sem travar, o resto é tudo besteira