La herramienta de ejecución local de modelos de IA Ollama, anunciada públicamente en la plataforma X el 24/4, informó que incorporará el modelo V4-Flash, lanzado el día anterior por la startup china de IA DeepSeek, en el servicio Ollama Cloud. El servidor de inferencia está ubicado en Estados Unidos, y ofrece tres conjuntos de comandos de un solo toque para que los desarrolladores conecten directamente V4-Flash a flujos de trabajo de desarrollo de software de IA populares como Claude Code, OpenClaw y Hermes.
deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…
— ollama (@ollama) April 24, 2026
Previa de DeepSeek V4: dos tamaños, 1M de contexto
De acuerdo con el anuncio publicado por la documentación oficial de la API de DeepSeek el 24/4, DeepSeek-V4 Preview se abre en simultáneo en dos tamaños:
Modelo Parámetros totales Parámetros activos Enfoque DeepSeek-V4-Pro 1,6 billones 490 millones Objetivo: buque insignia propietario DeepSeek-V4-Flash 2,840 billones 130 millones Rápido, eficiente y de bajo costo
Ambos adoptan una arquitectura Mixture-of-Experts (MoE), con soporte nativo para contextos largos de 1 millón de tokens. En el anuncio, DeepSeek declara: «El contexto de 1M ahora es el valor predeterminado de todos los servicios oficiales de DeepSeek».
Innovación de arquitectura: atención dispersa DSA + compresión por token
Las mejoras arquitectónicas centrales de la serie V4 incluyen:
Compresión por token junto con DSA (DeepSeek Sparse Attention) — reduce drásticamente el costo de los cálculos de inferencia y la memoria caché de KV en escenarios de contextos extremadamente largos
En comparación con V3.2, en el contexto de 1 millón de tokens, V4-Pro requiere solo 27% de los FLOPs para inferencia por token y la caché KV solo requiere 10%
Soporta el cambio entre dos modos: Thinking y Non-Thinking, para satisfacer necesidades de razonamiento profundo en tareas diferentes
A nivel de API, es compatible tanto con OpenAI ChatCompletions como con las especificaciones de Anthropic APIs, reduciendo el costo de migración de los clientes existentes de Claude/GPT.
Los tres comandos de inicio inmediato de Ollama Cloud
En la página oficial del modelo, se ofrece el servicio de inferencia en la nube con el identificador de modelo deepseek-v4-flash:cloud; los desarrolladores pueden usar los siguientes tres conjuntos de comandos para conectar V4-Flash directamente a flujos de trabajo existentes de desarrollo de software de IA:
Flujo de trabajo Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
Cabe prestar atención a la señal de «servidor en Estados Unidos». Para empresas y desarrolladores de Europa y Norteamérica, la mayor inquietud al usar modelos de código abierto chinos es la devolución de datos a China; Ollama elige colocar la capa de inferencia de V4-Flash en Estados Unidos, lo que significa que el prompt y el contenido del código no salen del ámbito jurisdiccional de Estados Unidos, reduciendo fricciones en términos de cumplimiento y soberanía de datos.
Por qué este asunto es importante para la industria de la IA
Al conectar entre sí DeepSeek V4-Flash, Ollama Cloud y Claude Code, que antes eran ecosistemas independientes, se generan tres significados:
Ruta de costos: los 13.000 millones de parámetros activos de V4-Flash son muy inferiores a los de buques insignia como GPT-5.5 (5 dólares de entrada, 30 dólares de salida por cada millón de tokens) y Claude Opus 4.7; para tareas de agentes de tamaño medio y pequeño, resúmenes por lotes, automatización de pruebas, etc., se espera que el costo unitario disminuya de forma significativa
Capa intermedia de riesgo geográfico: al actuar Ollama como una capa de inferencia intermedia registrada en Estados Unidos, permite a los usuarios empresariales de modelos nativos chinos eludir la preocupación de que «los datos se envíen directamente al servidor de DeepSeek en Beijing»; esta es una solución práctica para la difusión internacional de modelos de código abierto
Cambio inmediato para desarrolladores: los usuarios de Claude Code y OpenClaw pueden cambiar de modelo en una sola línea en la línea de comandos, sin necesidad de cambiar la estructura del prompt ni la configuración del IDE; para escenarios como «pruebas de regresión con múltiples modelos» y «tareas por lotes sensibles al costo», esto realmente libera productividad
Vinculación con noticias anteriores de DeepSeek
El lanzamiento de esta V4 y la integración rápida con Ollama Cloud ocurre en un contexto en el que DeepSeek está negociando la primera ronda de financiación externa y una valoración de 20.000 millones de dólares. V4 es una prueba clave de producto en el proceso de capitalización de la empresa DeepSeek; con una estrategia de código abierto + socios de expansión rápida a nivel internacional, es una carrera de velocidad para establecer la dominancia del ecosistema de desarrolladores antes de consolidarla. Para OpenAI y Anthropic, un modelo de reemplazo abierto que se puede cambiar en una sola línea dentro de Claude Code es una nueva variable en la puja por el control de los flujos de trabajo de los agentes.
Este artículo «DeepSeek V4-Flash llega a Ollama Cloud, servidor en Estados Unidos: conexión en un solo toque con Claude Code, OpenClaw» apareció por primera vez en Cadena News ABMedia.
Artículos relacionados
¿Por qué una buena noticia de Intel impulsa una fuerte subida de las acciones de Nvidia?
China y EE. UU. se enfrentan en un pulso de IA por acusaciones de destilación de modelos y restricciones de inversión
Alphabet invertirá hasta $40 mil millones en Anthropic, impulsando la competencia en IA
El regulador suizo FINMA advierte que la herramienta de IA Mythos de Anthropic plantea riesgos financieros
Nvidia recupera una capitalización de mercado de $5 billones y alcanza un nuevo máximo histórico de cierre