Graver dans la pierre - ForkLog : cryptomonnaies, IA, singularité, avenir

Froklog · 2026-03-11T14:48:14+00:00

Graver dans la pierreComment les puces IA franchissent la « muraille de la mémoire »Traditionnellement, les GPU grand public sont conçus pour les jeux vidéo et le rendu. Cependant, ils sont également capables d'effectuer d'autres tâches nécessitant des calculs parallèlesPar exemple, un processeur graphique peut lancer un mineur PoW pour l'extraction de cryptomonnaies,

Froklog

2026-03-11 14:48:14

# Gravé dans la pierre

Comment les puces IA franchissent le « mur de la mémoire »

Traditionnellement, les GPU grand public sont destinés aux jeux vidéo et au rendu. Cependant, ils peuvent également effectuer d’autres tâches nécessitant des calculs parallèles.

Par exemple, un mineur PoW pour la cryptomonnaie peut être lancé sur un processeur graphique, mais face à la concurrence des équipements spécialisés, les fermes GPU sont devenues une solution pour des projets de niche.

Une situation similaire se développe dans le domaine de l’IA. Les cartes graphiques sont devenues l’outil principal pour les réseaux neuronaux. Mais avec l’évolution de l’industrie, la demande pour des solutions spécialisées pour l’IA a émergé. ForkLog a analysé l’état actuel de cette nouvelle course dans le domaine de l’intelligence artificielle.

Optimisation du silicium pour l’IA

Il existe plusieurs approches pour créer du matériel spécialisé pour les tâches d’intelligence artificielle.

Les GPU grand public peuvent être considérés comme un point de départ vers la spécialisation. Leur capacité à effectuer des calculs matriciels parallèles a été utile pour déployer des réseaux neuronaux et notamment l’apprentissage profond, mais il restait beaucoup de marge d’amélioration.

Un des principaux problèmes de l’IA sur GPU est la nécessité de déplacer constamment de grandes quantités de données entre la mémoire système et le GPU. Ces processus annexes peuvent prendre plus de temps et d’énergie que les calculs eux-mêmes.

Un autre problème vient de leur universalité. L’architecture des cartes graphiques est conçue pour une large gamme de tâches — du rendu graphique aux calculs généraux. En conséquence, certains blocs matériels sont superflus pour des charges de travail IA spécialisées.

Une limitation supplémentaire concerne le format des données. Historiquement, les processeurs graphiques ont été optimisés pour les opérations avec FP32 — des nombres à virgule flottante 32 bits. Pour l’inférence et l’apprentissage, on utilise généralement des formats de moindre précision : FP16 et BF16 sur 16 bits, ainsi que des entiers INT4 et INT8.

Nvidia H200 et B200

Parmi les produits les plus populaires pour l’inférence et l’apprentissage, on trouve les puces H200 et les systèmes serveur DGX B200 — qui sont essentiellement des GPU « renforcés » pour les centres de données.

L’élément principal orienté IA de ces accélérateurs est constitué de cœurs tensoriels, conçus pour des opérations matricielles ultra-rapides comme l’entraînement de modèles et l’inférence par lot.

Pour réduire la latence lors de l’accès aux données, Nvidia équipe ses cartes d’une grande quantité de mémoire haute bande passante (HBM, High Bandwidth Memory). La H200 intègre 141 Go de HBM3e avec une bande passante de 4,8 To/s, et la B200 offre des performances encore supérieures selon la configuration.

Tensor Processing Unit

En 2015, Google a développé le Tensor Processing Unit (TPU) — un ASIC basé sur des matrices systoliques, destiné à l’apprentissage automatique.

Tensor Processing Unit 3.0. Source : Wikipedia. Dans l’architecture des processeurs conventionnels — CPU et GPU — chaque opération implique la lecture, le traitement et l’écriture de données intermédiaires en mémoire.

Le TPU fait passer les données à travers un réseau de blocs, chacun effectuant une opération mathématique et transmettant le résultat au suivant. L’accès à la mémoire ne se produit qu’au début et à la fin de la séquence de calculs.

Cette approche permet de réduire le temps et l’énergie consacrés aux calculs IA par rapport à un GPU non spécialisé, mais le travail avec la mémoire externe reste un facteur limitant.

Cerebras

La société américaine Cerebras a trouvé un moyen d’utiliser une plaque de silicium entière comme processeur, alors qu’elle est habituellement découpée en éléments plus petits pour fabriquer des puces.

En 2019, les développeurs ont présenté leur premier Wafer-Scale Engine de 300 mm. En 2024, la société a lancé le processeur amélioré WSE-3, avec une puce de 460 mm contenant 900 000 cœurs.

Cerebras WSE-3 et deux puces Nvidia B200. Source : Cerebras. L’architecture de Cerebras prévoit la répartition des blocs de mémoire SRAM à proximité immédiate des modules logiques sur la même plaque de silicium. Chaque cœur dispose de 48 Ko de mémoire locale et ne concurrence pas les autres pour l’accès.

Selon les développeurs, de nombreux modèles pour l’inférence suffisent avec un seul WSE-3. Pour des tâches plus vastes, il est possible de constituer un cluster de plusieurs de ces puces.

Groq LPU

La société Groq (à ne pas confondre avec Grok de xAI) propose ses propres ASIC pour l’inférence, basés sur l’architecture Language Processing Unit (LPU).

Puces Groq. Source : Groq. Une caractéristique clé des puces Groq est leur optimisation pour les opérations séquentielles.

L’inférence repose sur la génération successive de tokens : chaque étape nécessite la finalisation de la précédente. Dans ce contexte, la performance dépend davantage de la vitesse d’un seul flux que de leur nombre.

Contrairement aux processeurs classiques et à certains dispositifs IA spécialisés, Groq ne génère pas d’instructions machine en cours d’exécution. Chaque opération est planifiée à l’avance dans un « emploi du temps » spécifique, lié à un moment précis du traitement.

De plus, comme d’autres accélérateurs IA, la LPU combine modules logiques et mémoire sur une seule puce pour minimiser les coûts de transfert de données.

Taalas

Tous les exemples ci-dessus impliquent un haut degré de programmabilité. Le modèle et ses poids nécessaires sont chargés dans une mémoire réinscriptible. À tout moment, l’opérateur peut charger un tout autre modèle ou apporter des modifications.

Avec cette approche, la performance dépend de la disponibilité, de la vitesse et de la capacité de la mémoire.

Les développeurs de Taalas sont allés plus loin en « intégrant » un modèle spécifique avec ses poids directement dans la puce au niveau de l’architecture des transistors.

Le modèle, habituellement logiciel, est réalisé en matériel, ce qui permet de se passer d’un stockage de données universel séparé et de ses coûts associés.

Dans leur première solution — la carte d’inférence HC1 — la société a utilisé un modèle ouvert Llama 3.1 8B.

Taalas HC1. Source : Taalas. La carte supporte une précision en bits faibles jusqu’à 3 ou 6 bits, accélérant ainsi le traitement. Selon Taalas, le HC1 traite jusqu’à 17 000 tokens par seconde, tout en restant un dispositif relativement peu coûteux et à faible consommation.

L’entreprise affirme une multiplication par mille de la performance par rapport à un GPU, en termes de consommation d’énergie et de coût.

Cependant, cette méthode présente un inconvénient fondamental : il est impossible de mettre à jour le modèle sans remplacer complètement la puce.

Par ailleurs, le HC1 intègre la prise en charge de LoRA — une méthode de « fine-tuning » des LLM par ajout de poids supplémentaires. Avec une configuration LoRA adaptée, le modèle peut devenir un spécialiste dans un domaine précis.

Une autre difficulté concerne la conception et la fabrication de telles « modèles physiques ». Le développement d’ASIC coûte cher et peut prendre plusieurs années. Dans un secteur de l’IA très concurrentiel, cela constitue une limite importante.

Taalas annonce une nouvelle méthode de génération d’architecture de processeur, censée résoudre ce problème. Un système automatique transforme un modèle et ses poids en un design de puce prêt en une semaine.

Selon leurs propres estimations, le cycle de production, depuis la découverte d’un nouveau modèle jusqu’à la sortie d’une puce physique, prendra environ deux mois.

L’avenir de l’inférence locale

Les nouveaux processeurs IA spécialisés occupent principalement leur place dans d’immenses centres de données, fournissant des services cloud payants. Les solutions non triviales, jusqu’aux « modèles physiques » intégrés directement dans le silicium, ne sont pas exclues.

Pour le consommateur, cette avancée technique se traduira par une réduction des coûts et une accélération des performances.

Par ailleurs, l’émergence de puces plus simples, moins chères et plus économes en énergie crée les conditions pour la popularisation des solutions d’inférence locale.

Déjà, on trouve des puces IA spécialisées dans les smartphones, les ordinateurs portables, les caméras de surveillance et même les sonnettes connectées. Elles permettent d’effectuer des tâches localement, avec une faible latence, une autonomie et une confidentialité accrues.

Une optimisation radicale, même si elle limite la flexibilité dans le choix et le remplacement du modèle, étend considérablement les capacités de ces appareils et permet d’intégrer des composants IA simples dans des produits de masse peu coûteux.

Si la majorité des utilisateurs commence à diriger ses requêtes vers des modèles fonctionnant sur des appareils locaux, la charge sur les centres de données pourrait diminuer, réduisant ainsi le risque de surcharge du secteur. Peut-être alors n’aura-t-on plus besoin de chercher des solutions radicales pour augmenter la puissance de calcul — comme leur lancement en orbite.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.