Tallado en piedra - ForkLog: criptomonedas, IA, singularidad, futuro

img-e85279aa380bface-8456330719811929# Tallar en piedra

Cómo los chips de IA superan la “pared de memoria”

Tradicionalmente, las GPU para consumidores están diseñadas para videojuegos y renderizado. Sin embargo, también pueden realizar otras tareas que requieren cálculos paralelos.

En una GPU se puede ejecutar, por ejemplo, un minero PoW para la minería de criptomonedas, pero en condiciones de competencia con equipos especializados, las granjas de GPU se han convertido en una solución para proyectos de nicho.

Una situación similar se desarrolla en el campo de la IA. Las tarjetas gráficas se han convertido en la principal herramienta de cálculo para redes neuronales. Pero a medida que la industria avanza, surge la demanda de soluciones especializadas para trabajar con IA. ForkLog analizó el estado actual de una nueva etapa en la carrera por la inteligencia artificial.

Optimización del silicio para IA

Existen varios enfoques para crear hardware especializado para tareas de inteligencia artificial.

Las GPU para consumidores pueden considerarse un punto de partida en el camino hacia la especialización. Su capacidad para trabajar con cálculos matriciales paralelos fue útil para desplegar redes neuronales y aprendizaje profundo, pero aún había espacio para mejoras.

Uno de los principales problemas de la IA en la tarjeta gráfica es la necesidad de mover constantemente grandes volúmenes de datos entre la memoria del sistema y la GPU. Estos procesos pueden consumir más tiempo y energía que los cálculos útiles en sí.

Otro problema de las GPU proviene de su versatilidad. La arquitectura de las tarjetas gráficas está diseñada para una amplia gama de tareas, desde renderizado gráfico hasta cálculos de propósito general. Como resultado, algunos bloques de hardware son redundantes para cargas de trabajo especializadas en IA.

Una limitación adicional es el formato de datos. Históricamente, los procesadores gráficos estaban optimizados para operaciones con FP32 — números de 32 bits con coma flotante. Para inferencia y entrenamiento, generalmente se usan formatos de menor precisión: FP16 y BF16 de 16 bits, enteros INT4 y INT8.

Nvidia H200 y B200

Algunos de los productos más populares para inferencia y entrenamiento son los chips H200 y los sistemas en servidor DGX B200, que en esencia son GPU “potenciadas” para centros de datos.

El elemento principal orientado a IA de estos aceleradores son los núcleos tensoriales, diseñados para operaciones matriciales ultrarrápidas, como entrenamiento de modelos y inferencia por lotes.

Para reducir la latencia en el acceso a datos, Nvidia equipa sus tarjetas con una gran cantidad de memoria de alto rendimiento (HBM, High Bandwidth Memory). En el H200 hay 141 GB de HBM3e con una capacidad de ancho de banda de 4,8 TB/s, y en el B200 estos valores son aún mayores según la configuración.

Unidad de Procesamiento Tensorial

En 2015, Google desarrolló la Unidad de Procesamiento Tensorial (TPU), un ASIC basado en matrices sístolicas, diseñado para aprendizaje automático.

Tensor Processing Unit 3.0. Fuente: Wikipedia. En la arquitectura de procesadores convencionales — CPU y GPU — cada operación implica leer, procesar y escribir datos intermedios en memoria.

La TPU pasa los datos a través de una matriz de bloques, cada uno realiza una operación matemática y transmite el resultado al siguiente. La memoria se accede solo al inicio y al final de la secuencia de cálculos.

Este enfoque permite gastar menos tiempo y energía en cálculos de IA que una GPU no especializada, aunque el trabajo con memoria externa sigue siendo un factor limitante.

Cerebras

La compañía estadounidense Cerebras encontró una forma de usar una placa de silicio completa como procesador, que normalmente se corta en elementos más pequeños para fabricar chips.

En 2019, los desarrolladores presentaron su primer Wafer-Scale Engine de 300 mm. En 2024, la compañía lanzó el procesador mejorado WSE-3, con un chip de 460 mm y 900,000 núcleos.

Cerebras WSE-3 y dos chips Nvidia B200. Fuente: Cerebras. La arquitectura de Cerebras implica distribuir bloques de memoria SRAM cerca de los módulos lógicos en la misma placa de silicio. Cada núcleo trabaja con su propia memoria local de 48 KB y no compite con otros núcleos por acceso.

Según los desarrolladores, muchas modelos para inferencia son suficientes con un WSE-3. Para tareas más grandes, se puede montar un clúster con varios de estos chips.

Groq LPU

La compañía Groq (no confundir con Grok de xAI) ofrece sus propios ASIC para inferencia basados en la arquitectura Language Processing Unit (LPU).

Chip Groq. Fuente: Groq. Una de las características clave de los chips Groq es la optimización para operaciones secuenciales.

La inferencia se basa en la generación alterna de tokens: cada paso requiere finalizar el anterior. En estas condiciones, el rendimiento depende más de la velocidad de un solo hilo que de su cantidad.

A diferencia de los procesadores de propósito general y algunos dispositivos especializados en IA, Groq no genera instrucciones de máquina durante la ejecución de la tarea. Cada operación está planificada de antemano en un “programa” y vinculada a un momento específico en el proceso.

Además, como otros aceleradores de IA, el LPU combina módulos de lógica y memoria en un solo chip para minimizar los costos de transferencia de datos.

Taalas

Todos los ejemplos anteriores implican un alto grado de programabilidad. El modelo y los pesos necesarios se cargan en memoria regrabable. En cualquier momento, el operador puede cargar un modelo diferente o hacer ajustes.

Con este enfoque, el rendimiento depende de la disponibilidad, velocidad y volumen de memoria.

Los desarrolladores de Taalas fueron más allá, decidiendo “incorporar” un modelo específico con pesos predefinidos directamente en el chip a nivel de arquitectura de transistores.

El modelo, que normalmente sería software, se implementa a nivel de hardware, lo que permite prescindir de un almacenamiento de datos universal separado y sus costos asociados.

En su primera solución, la tarjeta de inferencia HC1, la compañía utilizó un modelo abierto Llama 3.1 8B.

Taalas HC1. Fuente: Taalas. La tarjeta soporta precisión de bits bajos, hasta parámetros de 3 y 6 bits, lo que acelera el procesamiento. Según Taalas, HC1 procesa hasta 17,000 tokens por segundo, siendo un dispositivo relativamente barato y de bajo consumo energético.

La firma afirma un aumento de miles de veces en rendimiento en comparación con GPU en términos de eficiencia energética y costo.

Sin embargo, este método tiene una limitación fundamental: no se puede actualizar el modelo sin reemplazar completamente el chip.

Al mismo tiempo, HC1 soporta LoRA, un método de “ajuste fino” de LLM mediante la adición de pesos adicionales. Con la configuración adecuada, el modelo puede convertirse en un especialista en un área concreta.

Otra dificultad está en el proceso de diseño y fabricación de estos “modelos físicos”. El desarrollo de ASIC cuesta mucho dinero y puede tomar años. En un sector de alta competencia en IA, esto representa una restricción importante.

Taalas afirma haber desarrollado un nuevo método para generar la arquitectura del procesador, destinado a resolver este problema. Un sistema automático convierte el modelo y los pesos en un diseño de chip listo en una semana.

Según estimaciones de la compañía, el ciclo de producción desde obtener un modelo nuevo y desconocido hasta lanzar los chips físicos con su implementación llevará aproximadamente 2 meses.

El futuro de la inferencia local

Los nuevos chips especializados en IA principalmente ocupan espacios en grandes instalaciones de centros de datos, proporcionando servicios en la nube por pago. Las soluciones no triviales, incluso “modelos físicos” implementados directamente en silicio, no son una excepción.

Para el consumidor, un avance revolucionario será la reducción de costos y la aceleración de los servicios.

Al mismo tiempo, la aparición de chips más simples, económicos y eficientes en energía crea condiciones para popularizar soluciones de inferencia local.

Ya hoy en día, los chips especializados en IA están en teléfonos inteligentes y laptops, cámaras de vigilancia e incluso timbres inteligentes. Permiten realizar tareas localmente, garantizando baja latencia, autonomía y privacidad.

La optimización radical, aunque implique menor flexibilidad en la elección y sustitución del modelo, amplía significativamente las capacidades de estos dispositivos y permite integrar componentes de IA simples en productos económicos y de uso masivo.

Si la mayoría de los usuarios empieza a dirigir sus consultas a modelos que funcionan en dispositivos locales, la carga en los centros de datos podría reducirse, disminuyendo el riesgo de sobrecarga en la industria. Quizá entonces no sea necesario buscar caminos radicales para aumentar la capacidad de cálculo, como lanzarlos en órbita.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado