Nuevos obstáculos en el desarrollo de la inteligencia artificial: los datos se convierten en el desafío central
Con el rápido aumento de la escala de los modelos de inteligencia artificial y la capacidad de cálculo, un problema clave que ha sido ignorado durante mucho tiempo está saliendo a la luz: el suministro de datos. Actualmente, la industria de la IA enfrenta una contradicción estructural: los modelos y la capacidad de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, validación y transacción de datos aún se encuentran en una etapa primaria. En los próximos diez años, el enfoque del desarrollo de la IA se trasladará de los modelos y la capacidad de cálculo a la construcción de infraestructuras de datos.
La crisis de datos en la industria de la IA
Desde la revolución del aprendizaje profundo, la escala de parámetros de los modelos de IA ha pasado de millones a billones, y la demanda de potencia de cálculo ha crecido exponencialmente. Sin embargo, el crecimiento de los "datos orgánicos" de alta calidad generados por humanos se ha acercado a su límite. Tomando como ejemplo los datos de texto, la cantidad total de texto de calidad disponible en Internet es de aproximadamente 10^12 palabras, mientras que entrenar un modelo de mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras. Esto significa que el actual conjunto de datos solo puede sostener el entrenamiento de unos pocos modelos de escala similar.
Lo que es más grave es que la proporción de contenido repetido y de baja calidad supera el 60%, lo que comprime aún más la oferta de datos efectivos. Cuando los modelos comienzan a utilizar en gran medida contenido generado por IA, el "contaminación de datos" que conduce a la degradación del rendimiento del modelo se ha convertido en una preocupación en la industria. Esta contradicción radica en que: la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos", en lugar de "activos estratégicos" que necesitan ser cultivados con cuidado.
Datos en cadena: el material de entrenamiento ideal para la IA
En este contexto, los datos on-chain de la red blockchain muestran un valor único. En comparación con los datos del internet tradicional, los datos on-chain tienen una autenticidad y credibilidad inherentes:
Señales de intención reales: Los datos en la cadena registran las decisiones tomadas por los usuarios con dinero real, reflejando directamente el juicio sobre el valor del proyecto y la estrategia de asignación de fondos.
Cadena de comportamiento trazable: La transparencia de la blockchain permite que las acciones de los usuarios sean completamente rastreadas, formando una "cadena de comportamiento" coherente, lo que ayuda a la IA a construir perfiles de usuario precisos.
Acceso abierto: los datos en cadena están disponibles para todos los desarrolladores, sin necesidad de permisos, lo que proporciona una fuente de datos de bajo umbral para el entrenamiento de modelos de IA.
Sin embargo, los datos en la cadena también enfrentan desafíos: existen en forma de "registros de eventos" no estructurados, y requieren un procesamiento complejo para ser utilizados por modelos de IA. Actualmente, la "tasa de transformación estructurada" de los datos en la cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas en un mar de información fragmentada.
Construcción de un "sistema operativo inteligente" para datos en cadena
Para abordar el problema de la fragmentación de datos en la cadena, la industria está explorando la construcción de un "sistema operativo inteligente en cadena" diseñado específicamente para la IA. El objetivo central de estos sistemas es transformar las señales dispersas en la cadena en datos listos para IA que sean estructurados, verificables y combinables en tiempo real. Incluye principalmente los siguientes componentes clave:
Estándares de datos abiertos: unificar el formato de datos de diferentes blockchains y protocolos, para que la IA pueda "entender" directamente el mundo en la cadena.
Mecanismo de verificación descentralizado: utiliza el mecanismo de consenso de blockchain para garantizar la autenticidad y la integridad de los datos.
Capa de alta disponibilidad de datos: a través de algoritmos y arquitecturas optimizados, se logra el procesamiento en tiempo real de datos en la cadena y la transmisión de baja latencia.
Protocolo de puntuación de datos: desarrollar modelos de IA para evaluar automáticamente la calidad del conjunto de datos y proporcionar un criterio de precios para el mercado de datos.
Hacia la era de DataFi
El objetivo final de estos esfuerzos es impulsar a la industria de la IA hacia la era de DataFi: los datos se convertirán en "capital" que puede ser valorado, negociado y aumentado. En esta nueva era, los datos tendrán cuatro propiedades centrales:
Estructurado: la señal original en la cadena se convierte en datos estructurados que pueden ser llamados directamente por la IA.
Combinable: Los datos de diferentes fuentes se pueden combinar libremente como bloques de Lego, ampliando los límites de la aplicación.
Verificable: La autenticidad de los datos se puede rastrear y verificar a través de los registros en la blockchain.
Monetizable: Los proveedores de datos pueden convertir datos de alta calidad directamente en ingresos.
Conclusión: La revolución de los datos lidera una nueva era de IA
La evolución de la IA es esencialmente la evolución de la infraestructura de datos. Desde la limitación de los datos generados por los humanos hasta el descubrimiento del valor de los datos en la cadena, desde señales fragmentadas hasta activos estructurados, una nueva generación de infraestructura de datos está remodelando la lógica subyacente de la industria de la IA. En la inminente era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real, impulsando la aparición de diversas aplicaciones innovadoras.
Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo. Las aplicaciones de IA de próxima generación no solo necesitan modelos potentes, sino también datos de alta calidad y confiables que las respalden. Construir un ecosistema de datos así será la tarea central de la industria de la IA en la próxima década.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
23 me gusta
Recompensa
23
7
Republicar
Compartir
Comentar
0/400
SigmaBrain
· 08-09 05:28
La deriva de la carroza está basada en datos.
Ver originalesResponder0
BoredWatcher
· 08-08 00:30
Los datos son mucho más fragantes que los paquetes de cocina.
Ver originalesResponder0
ChainComedian
· 08-06 13:10
Los datos no son suficientes, incluso gpt tiene que pasar hambre.
Ver originalesResponder0
airdrop_whisperer
· 08-06 11:21
Tarde o temprano, los datos se convertirán en el activo más valioso.
Ver originalesResponder0
MeltdownSurvivalist
· 08-06 11:18
Los datos son la clave, como siempre se ha dicho.
Ver originalesResponder0
LiquidityHunter
· 08-06 11:17
Al final, no se trata más que de consumir datos y jugar con nuevos cuellos de botella.
Ver originalesResponder0
FarmHopper
· 08-06 11:11
Vaya, los recursos de datos están a punto de pelearse incluso fuera de línea.
El suministro de datos se convierte en un cuello de botella para el desarrollo de la IA, los datos on-chain lideran una nueva era de DataFi.
Nuevos obstáculos en el desarrollo de la inteligencia artificial: los datos se convierten en el desafío central
Con el rápido aumento de la escala de los modelos de inteligencia artificial y la capacidad de cálculo, un problema clave que ha sido ignorado durante mucho tiempo está saliendo a la luz: el suministro de datos. Actualmente, la industria de la IA enfrenta una contradicción estructural: los modelos y la capacidad de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, validación y transacción de datos aún se encuentran en una etapa primaria. En los próximos diez años, el enfoque del desarrollo de la IA se trasladará de los modelos y la capacidad de cálculo a la construcción de infraestructuras de datos.
La crisis de datos en la industria de la IA
Desde la revolución del aprendizaje profundo, la escala de parámetros de los modelos de IA ha pasado de millones a billones, y la demanda de potencia de cálculo ha crecido exponencialmente. Sin embargo, el crecimiento de los "datos orgánicos" de alta calidad generados por humanos se ha acercado a su límite. Tomando como ejemplo los datos de texto, la cantidad total de texto de calidad disponible en Internet es de aproximadamente 10^12 palabras, mientras que entrenar un modelo de mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras. Esto significa que el actual conjunto de datos solo puede sostener el entrenamiento de unos pocos modelos de escala similar.
Lo que es más grave es que la proporción de contenido repetido y de baja calidad supera el 60%, lo que comprime aún más la oferta de datos efectivos. Cuando los modelos comienzan a utilizar en gran medida contenido generado por IA, el "contaminación de datos" que conduce a la degradación del rendimiento del modelo se ha convertido en una preocupación en la industria. Esta contradicción radica en que: la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos", en lugar de "activos estratégicos" que necesitan ser cultivados con cuidado.
Datos en cadena: el material de entrenamiento ideal para la IA
En este contexto, los datos on-chain de la red blockchain muestran un valor único. En comparación con los datos del internet tradicional, los datos on-chain tienen una autenticidad y credibilidad inherentes:
Señales de intención reales: Los datos en la cadena registran las decisiones tomadas por los usuarios con dinero real, reflejando directamente el juicio sobre el valor del proyecto y la estrategia de asignación de fondos.
Cadena de comportamiento trazable: La transparencia de la blockchain permite que las acciones de los usuarios sean completamente rastreadas, formando una "cadena de comportamiento" coherente, lo que ayuda a la IA a construir perfiles de usuario precisos.
Acceso abierto: los datos en cadena están disponibles para todos los desarrolladores, sin necesidad de permisos, lo que proporciona una fuente de datos de bajo umbral para el entrenamiento de modelos de IA.
Sin embargo, los datos en la cadena también enfrentan desafíos: existen en forma de "registros de eventos" no estructurados, y requieren un procesamiento complejo para ser utilizados por modelos de IA. Actualmente, la "tasa de transformación estructurada" de los datos en la cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas en un mar de información fragmentada.
Construcción de un "sistema operativo inteligente" para datos en cadena
Para abordar el problema de la fragmentación de datos en la cadena, la industria está explorando la construcción de un "sistema operativo inteligente en cadena" diseñado específicamente para la IA. El objetivo central de estos sistemas es transformar las señales dispersas en la cadena en datos listos para IA que sean estructurados, verificables y combinables en tiempo real. Incluye principalmente los siguientes componentes clave:
Estándares de datos abiertos: unificar el formato de datos de diferentes blockchains y protocolos, para que la IA pueda "entender" directamente el mundo en la cadena.
Mecanismo de verificación descentralizado: utiliza el mecanismo de consenso de blockchain para garantizar la autenticidad y la integridad de los datos.
Capa de alta disponibilidad de datos: a través de algoritmos y arquitecturas optimizados, se logra el procesamiento en tiempo real de datos en la cadena y la transmisión de baja latencia.
Protocolo de puntuación de datos: desarrollar modelos de IA para evaluar automáticamente la calidad del conjunto de datos y proporcionar un criterio de precios para el mercado de datos.
Hacia la era de DataFi
El objetivo final de estos esfuerzos es impulsar a la industria de la IA hacia la era de DataFi: los datos se convertirán en "capital" que puede ser valorado, negociado y aumentado. En esta nueva era, los datos tendrán cuatro propiedades centrales:
Estructurado: la señal original en la cadena se convierte en datos estructurados que pueden ser llamados directamente por la IA.
Combinable: Los datos de diferentes fuentes se pueden combinar libremente como bloques de Lego, ampliando los límites de la aplicación.
Verificable: La autenticidad de los datos se puede rastrear y verificar a través de los registros en la blockchain.
Monetizable: Los proveedores de datos pueden convertir datos de alta calidad directamente en ingresos.
Conclusión: La revolución de los datos lidera una nueva era de IA
La evolución de la IA es esencialmente la evolución de la infraestructura de datos. Desde la limitación de los datos generados por los humanos hasta el descubrimiento del valor de los datos en la cadena, desde señales fragmentadas hasta activos estructurados, una nueva generación de infraestructura de datos está remodelando la lógica subyacente de la industria de la IA. En la inminente era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real, impulsando la aparición de diversas aplicaciones innovadoras.
Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo. Las aplicaciones de IA de próxima generación no solo necesitan modelos potentes, sino también datos de alta calidad y confiables que las respalden. Construir un ecosistema de datos así será la tarea central de la industria de la IA en la próxima década.