L'approvisionnement en données devient un goulot d'étranglement pour le développement de l'IA, les données off-chain ouvrent la voie à une nouvelle ère de DataFi.
Nouveau goulet d'étranglement dans le développement de l'intelligence artificielle : les données deviennent un défi central
Avec l'augmentation rapide de l'échelle des modèles d'intelligence artificielle et de la puissance de calcul, une question clé longtemps négligée émerge : l'approvisionnement en données. L'industrie de l'IA fait face à une contradiction structurelle : les modèles et la puissance de calcul ont déjà formé un système de marché mature, mais la production, le nettoyage, la validation et le commerce des données sont encore à un stade primaire. Au cours de la prochaine décennie, l'accent du développement de l'IA se déplacera de la modélisation et de la puissance de calcul vers la construction d'infrastructures de données.
Les défis des données dans l'industrie de l'IA
Depuis la révolution de l'apprentissage profond, l'échelle des paramètres des modèles d'IA est passée de millions à des trillions, avec une demande en puissance de calcul qui croît de manière exponentielle. Cependant, la croissance des "données organiques" de haute qualité générées par l'homme est proche d'un plafond. Prenons l'exemple des données textuelles : la quantité totale de textes de qualité disponibles sur Internet est d'environ 10^12 mots, tandis qu'entraîner un modèle de cent milliards de paramètres nécessite environ 10^13 mots de données. Cela signifie que le pool de données existant ne peut soutenir l'entraînement que d'un nombre limité de modèles de taille équivalente.
Plus grave encore, la part de contenu répétitif et de basse qualité dépasse 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à utiliser massivement du contenu généré par l'IA, la "pollution des données" entraînant une dégradation des performances des modèles est devenue une préoccupation dans l'industrie. La racine de cette contradiction réside dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite" plutôt que comme un "actif stratégique" qui nécessite un soin particulier.
Données on-chain : le matériel d'entraînement idéal pour l'IA
Dans ce contexte, les données on-chain des réseaux blockchain présentent une valeur unique. Par rapport aux données d'Internet traditionnel, les données on-chain possèdent une authenticité et une crédibilité naturelles :
Signal d'intention réel : Les données on-chain enregistrent les comportements décisionnels des utilisateurs effectués avec de l'argent réel, reflétant directement le jugement sur la valeur du projet et la stratégie de répartition des fonds.
Chaîne de comportement traçable : La transparence de la blockchain permet de suivre intégralement les comportements des utilisateurs, formant une "chaîne de comportement" cohérente, ce qui aide l'IA à construire des profils utilisateurs précis.
Accès ouvert : les données sur la chaîne sont accessibles à tous les développeurs, sans besoin de permission, fournissant une source de données à faible seuil pour l'entraînement des modèles d'IA.
Cependant, les données on-chain font également face à des défis : elles existent sous forme de "logs d'événements" non structurés et nécessitent un traitement complexe avant de pouvoir être utilisées par des modèles d'IA. Actuellement, le "taux de conversion structuré" des données on-chain est inférieur à 5 %, une grande quantité de signaux de haute valeur étant enfouie dans un océan d'informations fragmentées.
Construire un "système d'exploitation intelligent" pour les données sur la chaîne
Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie explore la construction d'un "système d'exploitation intelligent sur la chaîne" spécialement conçu pour l'IA. L'objectif principal de ces systèmes est de convertir les signaux dispersés sur la chaîne en données prêtes pour l'IA, structurées, vérifiables et combinables en temps réel. Cela comprend principalement les composants clés suivants :
Normes de données ouvertes : uniformiser les formats de données des différentes blockchains et protocoles, permettant à l'IA de "comprendre" directement le monde de la chaîne.
Mécanisme de validation décentralisé : utilisation du mécanisme de consensus blockchain pour garantir l'authenticité et l'intégrité des données.
Couche de disponibilité des données haute performance : en optimisant les algorithmes et l'architecture, réaliser le traitement en temps réel des données sur la chaîne et la transmission à faible latence.
Protocole de notation des données : Développer des modèles d'IA pour évaluer automatiquement la qualité des ensembles de données et fournir une référence de prix pour le marché des transactions de données.
Vers l'ère DataFi
Le but ultime de ces efforts est de propulser l'industrie de l'IA dans l'ère DataFi - les données deviendront des "capitaux" pouvant être valorisés, échangés et appréciés. Dans cette nouvelle ère, les données posséderont quatre attributs clés :
Structuré : Les signaux bruts sur la chaîne sont convertis en données structurées pouvant être directement utilisées par l'IA.
Combinable : Les données provenant de différentes sources peuvent être librement combinées comme des briques LEGO, élargissant ainsi les limites d'application.
Vérifiable : L'authenticité des données peut être retracée et vérifiée grâce aux enregistrements sur la blockchain.
Monétisable : Les fournisseurs de données peuvent transformer des données de haute qualité en revenus.
Conclusion : La révolution des données ouvre une nouvelle ère pour l'IA
L'évolution de l'IA est essentiellement une évolution des infrastructures de données. De la limitation des données générées par les humains à la découverte de la valeur des données sur la chaîne, des signaux fragmentés aux actifs structurés, une nouvelle génération d'infrastructures de données est en train de remodeler la logique sous-jacente de l'industrie de l'IA. Dans la prochaine ère de DataFi, les données deviendront le pont reliant l'IA et le monde réel, favorisant l'émergence de diverses applications innovantes.
Lorsque les données seront enfin dotées de la valeur qui leur revient, l'IA pourra réellement libérer le pouvoir de changer le monde. La prochaine génération d'applications d'IA nécessitera non seulement des modèles puissants, mais aussi des données de haute qualité et fiables pour les soutenir. Construire un tel écosystème de données sera la tâche centrale du secteur de l'IA au cours de la prochaine décennie.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
23 J'aime
Récompense
23
7
Reposter
Partager
Commentaire
0/400
SigmaBrain
· 08-09 05:28
Le drift de voiture funéraire est basé sur des données.
Voir l'originalRépondre0
BoredWatcher
· 08-08 00:30
Les données sentent beaucoup mieux que les kits de cuisine.
Voir l'originalRépondre0
ChainComedian
· 08-06 13:10
Les données ne suffisent pas, même GPT doit avoir faim.
Voir l'originalRépondre0
airdrop_whisperer
· 08-06 11:21
Tôt ou tard, les données deviendront l'actif le plus précieux.
Voir l'originalRépondre0
MeltdownSurvivalist
· 08-06 11:18
Les choses classiques, les données sont la clé.
Voir l'originalRépondre0
LiquidityHunter
· 08-06 11:17
Au fond, ce n'est pas autre chose que de consommer des données et de jouer avec de nouveaux goulets d'étranglement.
Voir l'originalRépondre0
FarmHopper
· 08-06 11:11
Mince, les ressources de données sont sur le point de se battre jusqu'en dehors des lignes.
L'approvisionnement en données devient un goulot d'étranglement pour le développement de l'IA, les données off-chain ouvrent la voie à une nouvelle ère de DataFi.
Nouveau goulet d'étranglement dans le développement de l'intelligence artificielle : les données deviennent un défi central
Avec l'augmentation rapide de l'échelle des modèles d'intelligence artificielle et de la puissance de calcul, une question clé longtemps négligée émerge : l'approvisionnement en données. L'industrie de l'IA fait face à une contradiction structurelle : les modèles et la puissance de calcul ont déjà formé un système de marché mature, mais la production, le nettoyage, la validation et le commerce des données sont encore à un stade primaire. Au cours de la prochaine décennie, l'accent du développement de l'IA se déplacera de la modélisation et de la puissance de calcul vers la construction d'infrastructures de données.
Les défis des données dans l'industrie de l'IA
Depuis la révolution de l'apprentissage profond, l'échelle des paramètres des modèles d'IA est passée de millions à des trillions, avec une demande en puissance de calcul qui croît de manière exponentielle. Cependant, la croissance des "données organiques" de haute qualité générées par l'homme est proche d'un plafond. Prenons l'exemple des données textuelles : la quantité totale de textes de qualité disponibles sur Internet est d'environ 10^12 mots, tandis qu'entraîner un modèle de cent milliards de paramètres nécessite environ 10^13 mots de données. Cela signifie que le pool de données existant ne peut soutenir l'entraînement que d'un nombre limité de modèles de taille équivalente.
Plus grave encore, la part de contenu répétitif et de basse qualité dépasse 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à utiliser massivement du contenu généré par l'IA, la "pollution des données" entraînant une dégradation des performances des modèles est devenue une préoccupation dans l'industrie. La racine de cette contradiction réside dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite" plutôt que comme un "actif stratégique" qui nécessite un soin particulier.
Données on-chain : le matériel d'entraînement idéal pour l'IA
Dans ce contexte, les données on-chain des réseaux blockchain présentent une valeur unique. Par rapport aux données d'Internet traditionnel, les données on-chain possèdent une authenticité et une crédibilité naturelles :
Signal d'intention réel : Les données on-chain enregistrent les comportements décisionnels des utilisateurs effectués avec de l'argent réel, reflétant directement le jugement sur la valeur du projet et la stratégie de répartition des fonds.
Chaîne de comportement traçable : La transparence de la blockchain permet de suivre intégralement les comportements des utilisateurs, formant une "chaîne de comportement" cohérente, ce qui aide l'IA à construire des profils utilisateurs précis.
Accès ouvert : les données sur la chaîne sont accessibles à tous les développeurs, sans besoin de permission, fournissant une source de données à faible seuil pour l'entraînement des modèles d'IA.
Cependant, les données on-chain font également face à des défis : elles existent sous forme de "logs d'événements" non structurés et nécessitent un traitement complexe avant de pouvoir être utilisées par des modèles d'IA. Actuellement, le "taux de conversion structuré" des données on-chain est inférieur à 5 %, une grande quantité de signaux de haute valeur étant enfouie dans un océan d'informations fragmentées.
Construire un "système d'exploitation intelligent" pour les données sur la chaîne
Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie explore la construction d'un "système d'exploitation intelligent sur la chaîne" spécialement conçu pour l'IA. L'objectif principal de ces systèmes est de convertir les signaux dispersés sur la chaîne en données prêtes pour l'IA, structurées, vérifiables et combinables en temps réel. Cela comprend principalement les composants clés suivants :
Normes de données ouvertes : uniformiser les formats de données des différentes blockchains et protocoles, permettant à l'IA de "comprendre" directement le monde de la chaîne.
Mécanisme de validation décentralisé : utilisation du mécanisme de consensus blockchain pour garantir l'authenticité et l'intégrité des données.
Couche de disponibilité des données haute performance : en optimisant les algorithmes et l'architecture, réaliser le traitement en temps réel des données sur la chaîne et la transmission à faible latence.
Protocole de notation des données : Développer des modèles d'IA pour évaluer automatiquement la qualité des ensembles de données et fournir une référence de prix pour le marché des transactions de données.
Vers l'ère DataFi
Le but ultime de ces efforts est de propulser l'industrie de l'IA dans l'ère DataFi - les données deviendront des "capitaux" pouvant être valorisés, échangés et appréciés. Dans cette nouvelle ère, les données posséderont quatre attributs clés :
Structuré : Les signaux bruts sur la chaîne sont convertis en données structurées pouvant être directement utilisées par l'IA.
Combinable : Les données provenant de différentes sources peuvent être librement combinées comme des briques LEGO, élargissant ainsi les limites d'application.
Vérifiable : L'authenticité des données peut être retracée et vérifiée grâce aux enregistrements sur la blockchain.
Monétisable : Les fournisseurs de données peuvent transformer des données de haute qualité en revenus.
Conclusion : La révolution des données ouvre une nouvelle ère pour l'IA
L'évolution de l'IA est essentiellement une évolution des infrastructures de données. De la limitation des données générées par les humains à la découverte de la valeur des données sur la chaîne, des signaux fragmentés aux actifs structurés, une nouvelle génération d'infrastructures de données est en train de remodeler la logique sous-jacente de l'industrie de l'IA. Dans la prochaine ère de DataFi, les données deviendront le pont reliant l'IA et le monde réel, favorisant l'émergence de diverses applications innovantes.
Lorsque les données seront enfin dotées de la valeur qui leur revient, l'IA pourra réellement libérer le pouvoir de changer le monde. La prochaine génération d'applications d'IA nécessitera non seulement des modèles puissants, mais aussi des données de haute qualité et fiables pour les soutenir. Construire un tel écosystème de données sera la tâche centrale du secteur de l'IA au cours de la prochaine décennie.