Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Graver dans la pierre - ForkLog : cryptomonnaies, IA, singularité, avenir
Comment les puces IA franchissent le « mur de la mémoire »
Traditionnellement, les GPU grand public sont destinés aux jeux vidéo et au rendu. Cependant, ils peuvent également effectuer d’autres tâches nécessitant des calculs parallèles.
Par exemple, un mineur PoW pour la cryptomonnaie peut être lancé sur un processeur graphique, mais face à la concurrence des équipements spécialisés, les fermes GPU sont devenues une solution pour des projets de niche.
Une situation similaire se développe dans le domaine de l’IA. Les cartes graphiques sont devenues l’outil principal pour les réseaux neuronaux. Mais avec l’évolution de l’industrie, la demande pour des solutions spécialisées pour l’IA a émergé. ForkLog a analysé l’état actuel de cette nouvelle course dans le domaine de l’intelligence artificielle.
Optimisation du silicium pour l’IA
Il existe plusieurs approches pour créer du matériel spécialisé pour les tâches d’intelligence artificielle.
Les GPU grand public peuvent être considérés comme un point de départ vers la spécialisation. Leur capacité à effectuer des calculs matriciels parallèles a été utile pour déployer des réseaux neuronaux et notamment l’apprentissage profond, mais il restait beaucoup de marge d’amélioration.
Un des principaux problèmes de l’IA sur GPU est la nécessité de déplacer constamment de grandes quantités de données entre la mémoire système et le GPU. Ces processus annexes peuvent prendre plus de temps et d’énergie que les calculs eux-mêmes.
Un autre problème vient de leur universalité. L’architecture des cartes graphiques est conçue pour une large gamme de tâches — du rendu graphique aux calculs généraux. En conséquence, certains blocs matériels sont superflus pour des charges de travail IA spécialisées.
Une limitation supplémentaire concerne le format des données. Historiquement, les processeurs graphiques ont été optimisés pour les opérations avec FP32 — des nombres à virgule flottante 32 bits. Pour l’inférence et l’apprentissage, on utilise généralement des formats de moindre précision : FP16 et BF16 sur 16 bits, ainsi que des entiers INT4 et INT8.
Nvidia H200 et B200
Parmi les produits les plus populaires pour l’inférence et l’apprentissage, on trouve les puces H200 et les systèmes serveur DGX B200 — qui sont essentiellement des GPU « renforcés » pour les centres de données.
L’élément principal orienté IA de ces accélérateurs est constitué de cœurs tensoriels, conçus pour des opérations matricielles ultra-rapides comme l’entraînement de modèles et l’inférence par lot.
Pour réduire la latence lors de l’accès aux données, Nvidia équipe ses cartes d’une grande quantité de mémoire haute bande passante (HBM, High Bandwidth Memory). La H200 intègre 141 Go de HBM3e avec une bande passante de 4,8 To/s, et la B200 offre des performances encore supérieures selon la configuration.
Tensor Processing Unit
En 2015, Google a développé le Tensor Processing Unit (TPU) — un ASIC basé sur des matrices systoliques, destiné à l’apprentissage automatique.
Le TPU fait passer les données à travers un réseau de blocs, chacun effectuant une opération mathématique et transmettant le résultat au suivant. L’accès à la mémoire ne se produit qu’au début et à la fin de la séquence de calculs.
Cette approche permet de réduire le temps et l’énergie consacrés aux calculs IA par rapport à un GPU non spécialisé, mais le travail avec la mémoire externe reste un facteur limitant.
Cerebras
La société américaine Cerebras a trouvé un moyen d’utiliser une plaque de silicium entière comme processeur, alors qu’elle est habituellement découpée en éléments plus petits pour fabriquer des puces.
En 2019, les développeurs ont présenté leur premier Wafer-Scale Engine de 300 mm. En 2024, la société a lancé le processeur amélioré WSE-3, avec une puce de 460 mm contenant 900 000 cœurs.
Selon les développeurs, de nombreux modèles pour l’inférence suffisent avec un seul WSE-3. Pour des tâches plus vastes, il est possible de constituer un cluster de plusieurs de ces puces.
Groq LPU
La société Groq (à ne pas confondre avec Grok de xAI) propose ses propres ASIC pour l’inférence, basés sur l’architecture Language Processing Unit (LPU).
L’inférence repose sur la génération successive de tokens : chaque étape nécessite la finalisation de la précédente. Dans ce contexte, la performance dépend davantage de la vitesse d’un seul flux que de leur nombre.
Contrairement aux processeurs classiques et à certains dispositifs IA spécialisés, Groq ne génère pas d’instructions machine en cours d’exécution. Chaque opération est planifiée à l’avance dans un « emploi du temps » spécifique, lié à un moment précis du traitement.
De plus, comme d’autres accélérateurs IA, la LPU combine modules logiques et mémoire sur une seule puce pour minimiser les coûts de transfert de données.
Taalas
Tous les exemples ci-dessus impliquent un haut degré de programmabilité. Le modèle et ses poids nécessaires sont chargés dans une mémoire réinscriptible. À tout moment, l’opérateur peut charger un tout autre modèle ou apporter des modifications.
Avec cette approche, la performance dépend de la disponibilité, de la vitesse et de la capacité de la mémoire.
Les développeurs de Taalas sont allés plus loin en « intégrant » un modèle spécifique avec ses poids directement dans la puce au niveau de l’architecture des transistors.
Le modèle, habituellement logiciel, est réalisé en matériel, ce qui permet de se passer d’un stockage de données universel séparé et de ses coûts associés.
Dans leur première solution — la carte d’inférence HC1 — la société a utilisé un modèle ouvert Llama 3.1 8B.
L’entreprise affirme une multiplication par mille de la performance par rapport à un GPU, en termes de consommation d’énergie et de coût.
Cependant, cette méthode présente un inconvénient fondamental : il est impossible de mettre à jour le modèle sans remplacer complètement la puce.
Par ailleurs, le HC1 intègre la prise en charge de LoRA — une méthode de « fine-tuning » des LLM par ajout de poids supplémentaires. Avec une configuration LoRA adaptée, le modèle peut devenir un spécialiste dans un domaine précis.
Une autre difficulté concerne la conception et la fabrication de telles « modèles physiques ». Le développement d’ASIC coûte cher et peut prendre plusieurs années. Dans un secteur de l’IA très concurrentiel, cela constitue une limite importante.
Taalas annonce une nouvelle méthode de génération d’architecture de processeur, censée résoudre ce problème. Un système automatique transforme un modèle et ses poids en un design de puce prêt en une semaine.
Selon leurs propres estimations, le cycle de production, depuis la découverte d’un nouveau modèle jusqu’à la sortie d’une puce physique, prendra environ deux mois.
L’avenir de l’inférence locale
Les nouveaux processeurs IA spécialisés occupent principalement leur place dans d’immenses centres de données, fournissant des services cloud payants. Les solutions non triviales, jusqu’aux « modèles physiques » intégrés directement dans le silicium, ne sont pas exclues.
Pour le consommateur, cette avancée technique se traduira par une réduction des coûts et une accélération des performances.
Par ailleurs, l’émergence de puces plus simples, moins chères et plus économes en énergie crée les conditions pour la popularisation des solutions d’inférence locale.
Déjà, on trouve des puces IA spécialisées dans les smartphones, les ordinateurs portables, les caméras de surveillance et même les sonnettes connectées. Elles permettent d’effectuer des tâches localement, avec une faible latence, une autonomie et une confidentialité accrues.
Une optimisation radicale, même si elle limite la flexibilité dans le choix et le remplacement du modèle, étend considérablement les capacités de ces appareils et permet d’intégrer des composants IA simples dans des produits de masse peu coûteux.
Si la majorité des utilisateurs commence à diriger ses requêtes vers des modèles fonctionnant sur des appareils locaux, la charge sur les centres de données pourrait diminuer, réduisant ainsi le risque de surcharge du secteur. Peut-être alors n’aura-t-on plus besoin de chercher des solutions radicales pour augmenter la puissance de calcul — comme leur lancement en orbite.