Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Quel rapport a même fait trouver Musk incroyable ?
Moonshot AI(l'équipe Kimi)a récemment publié un rapport technique explosif : « Attention Residuals », qui améliore directement les connexions résiduelles (Residual Connections) utilisées depuis près de 10 ans dans les Transformers. Même Elon Musk n'a pas pu s'empêcher de commenter, trouvant cela incroyable (niveau d'étonnement « unbelievable »).
Le cœur du rapport en une phrase :
« Arrêtez de laisser chaque couche additionner stupidement à poids égal les informations de toutes les couches précédentes, laissez le modèle apprendre à utiliser l'attention pour choisir quels signaux des couches précoces sont vraiment utiles ! »
Dans le Transformer traditionnel (structure PreNorm), la sortie de chaque couche est :
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
C'est simple et brutal : peu importe si les informations des 100 couches précédentes sont utiles ou non, on les ajoute toutes. Plus on va en profondeur, plus les signaux importants précoces sont dilués par les innombrables couches suivantes (ils appellent ce phénomène PreNorm dilution ou representational dilution).
L'équipe Kimi a simplement remplacé le signe « + » par une attention cross-layer légère (depth-wise attention) :
La nouvelle formule ressemble à peu près à ceci (version simplifiée) :
x_l = Attention( Q=x_l^{pre}, K=résumé de toutes les couches précédentes, V=valeurs correspondantes ) + autres
La mise en œuvre plus pratique qu'ils appellent Block AttnRes : tous les quelques étages (par exemple 8-16 couches), créer un résumé key/value, puis utiliser l'attention pour sélectionner ces résumés, plutôt que de calculer l'attention à chaque couche. De cette façon, la mémoire et la quantité de calcul augmentent très peu (latence d'inférence <2%), mais l'effet est impressionnant.
Leurs résultats expérimentaux (utilisant leur propre série Kimi Linear, 48B total / 3B active) :
• À FLOPs égaux, l'amélioration de performance équivaut à un avantage de puissance de calcul de 1,25x
• Les améliorations sont évidentes dans les tâches d'inférence sur longues séquences et de raisonnement complexe multi-étapes
• La magnitude (norme) de l'état caché est plus stable, contrairement aux résidus traditionnels qui explosent ou s'atténuent en profondeur
• La propagation du gradient est plus uniforme, les couches profondes sont plus faciles à entraîner
⚠️⚠️
Maintenant, pourquoi Musk a-t-il une si grande réaction ?
« Les connexions résiduelles se sont reposées pendant huit ans, enfin quelqu'un ose les modifier, et de manière si élégante, avec de si bons résultats?! »
Pourquoi cela mérite-t-il attention ? Parce que les connexions résiduelles sont pratiquement la seule bouée de sauvetage qui permet aux Transformers de s'entraîner à 100+ couches, voire des milliers de couches, et tout le monde pensait que c'était déjà optimal et qu'on ne pouvait pas l'améliorer. Le résultat : Kimi utilise le mécanisme d'attention le plus familier pour résoudre les problèmes du résidu lui-même, ce qui revient à porter à un nouveau niveau la phrase « l'attention est tout ce dont vous avez besoin ».
Maintenant, il y a déjà des implémentations en Rust (basées sur le framework burn), diverses visualisations explicatives qui inondent X, et certains disent que c'est, après le mHC de DeepSeek, une autre véritable innovation architecturale qui peut entrer dans la prochaine génération de grands modèles open-source/propriétaires.
Si vous travaillez sur de grands modèles ou entraînez vos propres LLM, ce rapport vaut la peine d'être lu toute la nuit en version originale + code (déjà open-source sur GitHub).
Rapport :
Préparez-vous à être impressionné 🚀