Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
New
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Tallado en piedra - ForkLog: criptomonedas, IA, singularidad, futuro
Cómo los chips de IA superan la “pared de memoria”
Tradicionalmente, las GPU para consumidores están diseñadas para videojuegos y renderizado. Sin embargo, también pueden realizar otras tareas que requieren cálculos paralelos.
En una GPU se puede ejecutar, por ejemplo, un minero PoW para la minería de criptomonedas, pero en condiciones de competencia con equipos especializados, las granjas de GPU se han convertido en una solución para proyectos de nicho.
Una situación similar se desarrolla en el campo de la IA. Las tarjetas gráficas se han convertido en la principal herramienta de cálculo para redes neuronales. Pero a medida que la industria avanza, surge la demanda de soluciones especializadas para trabajar con IA. ForkLog analizó el estado actual de una nueva etapa en la carrera por la inteligencia artificial.
Optimización del silicio para IA
Existen varios enfoques para crear hardware especializado para tareas de inteligencia artificial.
Las GPU para consumidores pueden considerarse un punto de partida en el camino hacia la especialización. Su capacidad para trabajar con cálculos matriciales paralelos fue útil para desplegar redes neuronales y aprendizaje profundo, pero aún había espacio para mejoras.
Uno de los principales problemas de la IA en la tarjeta gráfica es la necesidad de mover constantemente grandes volúmenes de datos entre la memoria del sistema y la GPU. Estos procesos pueden consumir más tiempo y energía que los cálculos útiles en sí.
Otro problema de las GPU proviene de su versatilidad. La arquitectura de las tarjetas gráficas está diseñada para una amplia gama de tareas, desde renderizado gráfico hasta cálculos de propósito general. Como resultado, algunos bloques de hardware son redundantes para cargas de trabajo especializadas en IA.
Una limitación adicional es el formato de datos. Históricamente, los procesadores gráficos estaban optimizados para operaciones con FP32 — números de 32 bits con coma flotante. Para inferencia y entrenamiento, generalmente se usan formatos de menor precisión: FP16 y BF16 de 16 bits, enteros INT4 y INT8.
Nvidia H200 y B200
Algunos de los productos más populares para inferencia y entrenamiento son los chips H200 y los sistemas en servidor DGX B200, que en esencia son GPU “potenciadas” para centros de datos.
El elemento principal orientado a IA de estos aceleradores son los núcleos tensoriales, diseñados para operaciones matriciales ultrarrápidas, como entrenamiento de modelos y inferencia por lotes.
Para reducir la latencia en el acceso a datos, Nvidia equipa sus tarjetas con una gran cantidad de memoria de alto rendimiento (HBM, High Bandwidth Memory). En el H200 hay 141 GB de HBM3e con una capacidad de ancho de banda de 4,8 TB/s, y en el B200 estos valores son aún mayores según la configuración.
Unidad de Procesamiento Tensorial
En 2015, Google desarrolló la Unidad de Procesamiento Tensorial (TPU), un ASIC basado en matrices sístolicas, diseñado para aprendizaje automático.
La TPU pasa los datos a través de una matriz de bloques, cada uno realiza una operación matemática y transmite el resultado al siguiente. La memoria se accede solo al inicio y al final de la secuencia de cálculos.
Este enfoque permite gastar menos tiempo y energía en cálculos de IA que una GPU no especializada, aunque el trabajo con memoria externa sigue siendo un factor limitante.
Cerebras
La compañía estadounidense Cerebras encontró una forma de usar una placa de silicio completa como procesador, que normalmente se corta en elementos más pequeños para fabricar chips.
En 2019, los desarrolladores presentaron su primer Wafer-Scale Engine de 300 mm. En 2024, la compañía lanzó el procesador mejorado WSE-3, con un chip de 460 mm y 900,000 núcleos.
Según los desarrolladores, muchas modelos para inferencia son suficientes con un WSE-3. Para tareas más grandes, se puede montar un clúster con varios de estos chips.
Groq LPU
La compañía Groq (no confundir con Grok de xAI) ofrece sus propios ASIC para inferencia basados en la arquitectura Language Processing Unit (LPU).
La inferencia se basa en la generación alterna de tokens: cada paso requiere finalizar el anterior. En estas condiciones, el rendimiento depende más de la velocidad de un solo hilo que de su cantidad.
A diferencia de los procesadores de propósito general y algunos dispositivos especializados en IA, Groq no genera instrucciones de máquina durante la ejecución de la tarea. Cada operación está planificada de antemano en un “programa” y vinculada a un momento específico en el proceso.
Además, como otros aceleradores de IA, el LPU combina módulos de lógica y memoria en un solo chip para minimizar los costos de transferencia de datos.
Taalas
Todos los ejemplos anteriores implican un alto grado de programabilidad. El modelo y los pesos necesarios se cargan en memoria regrabable. En cualquier momento, el operador puede cargar un modelo diferente o hacer ajustes.
Con este enfoque, el rendimiento depende de la disponibilidad, velocidad y volumen de memoria.
Los desarrolladores de Taalas fueron más allá, decidiendo “incorporar” un modelo específico con pesos predefinidos directamente en el chip a nivel de arquitectura de transistores.
El modelo, que normalmente sería software, se implementa a nivel de hardware, lo que permite prescindir de un almacenamiento de datos universal separado y sus costos asociados.
En su primera solución, la tarjeta de inferencia HC1, la compañía utilizó un modelo abierto Llama 3.1 8B.
La firma afirma un aumento de miles de veces en rendimiento en comparación con GPU en términos de eficiencia energética y costo.
Sin embargo, este método tiene una limitación fundamental: no se puede actualizar el modelo sin reemplazar completamente el chip.
Al mismo tiempo, HC1 soporta LoRA, un método de “ajuste fino” de LLM mediante la adición de pesos adicionales. Con la configuración adecuada, el modelo puede convertirse en un especialista en un área concreta.
Otra dificultad está en el proceso de diseño y fabricación de estos “modelos físicos”. El desarrollo de ASIC cuesta mucho dinero y puede tomar años. En un sector de alta competencia en IA, esto representa una restricción importante.
Taalas afirma haber desarrollado un nuevo método para generar la arquitectura del procesador, destinado a resolver este problema. Un sistema automático convierte el modelo y los pesos en un diseño de chip listo en una semana.
Según estimaciones de la compañía, el ciclo de producción desde obtener un modelo nuevo y desconocido hasta lanzar los chips físicos con su implementación llevará aproximadamente 2 meses.
El futuro de la inferencia local
Los nuevos chips especializados en IA principalmente ocupan espacios en grandes instalaciones de centros de datos, proporcionando servicios en la nube por pago. Las soluciones no triviales, incluso “modelos físicos” implementados directamente en silicio, no son una excepción.
Para el consumidor, un avance revolucionario será la reducción de costos y la aceleración de los servicios.
Al mismo tiempo, la aparición de chips más simples, económicos y eficientes en energía crea condiciones para popularizar soluciones de inferencia local.
Ya hoy en día, los chips especializados en IA están en teléfonos inteligentes y laptops, cámaras de vigilancia e incluso timbres inteligentes. Permiten realizar tareas localmente, garantizando baja latencia, autonomía y privacidad.
La optimización radical, aunque implique menor flexibilidad en la elección y sustitución del modelo, amplía significativamente las capacidades de estos dispositivos y permite integrar componentes de IA simples en productos económicos y de uso masivo.
Si la mayoría de los usuarios empieza a dirigir sus consultas a modelos que funcionan en dispositivos locales, la carga en los centros de datos podría reducirse, disminuyendo el riesgo de sobrecarga en la industria. Quizá entonces no sea necesario buscar caminos radicales para aumentar la capacidad de cálculo, como lanzarlos en órbita.