Cómo Desapareció Toda la Internet de la Noche a la Mañana

MpostMediaGroup

2025-11-27 08:46:23

En breve

Un error de configuración en Cloudflare el 18 de noviembre causó una interrupción en cascada que interrumpió temporalmente servicios importantes como X, ChatGPT, Spotify y Uber en todo el mundo.

Imagina esto: te despiertas, agarras tu teléfono y tocas los íconos de siempre. X no carga. ChatGPT no responde a tu pregunta. YouTube no muestra tu video. Incluso Downdetector, el sitio que normalmente usas para verificar si las cosas están rotas, está… roto.

Durante unas pocas horas el 18 de noviembre, esa fue la realidad para millones de personas en todo el mundo. Una gran interrupción en Cloudflare, una de las empresas de infraestructura clave detrás de la internet moderna, afectó o degradó una amplia gama de servicios, incluidos X, ChatGPT, Spotify, Uber, Canva, League of Legends y más.

Se sentía como si “todo internet” hubiera desaparecido. En la práctica, era algo tanto más pequeño como más aterrador: una única falla en los sistemas de una empresa que se propagaba a través de una gran parte de la web.

¿Qué salió mal en Cloudflare?

El problema comenzó temprano el martes por la mañana (Nov. 18) hora de EE. UU. Alrededor de las 6:20 a.m. ET, Cloudflare vio un aumento en el tráfico inusual que pasaba a través de uno de sus sistemas. Solo unos minutos después, los sitios web que dependen de Cloudflare comenzaron a mostrar páginas de “error interno del servidor” y a fallar para los usuarios de todo el mundo.

A medida que los informes de interrupción se acumulaban en Downdetector y en las redes sociales, Cloudflare publicó que estaba “al tanto de, e investigando” un problema que afectaba a múltiples clientes. Los ingenieros finalmente identificaron al culpable y aplicaron una solución, con el tráfico regresando gradualmente a la normalidad aproximadamente tres horas después de que comenzó la interrupción.

La empresa enfatizó un punto clave: no había señales de un ciberataque. No fue un DDoS, un incidente de ransomware, ni un actor estatal. Fue una falla técnica interna. Sin embargo, para los usuarios, la causa no importaba. Su experiencia era simple: internet dejó de funcionar.

Lo que hace Cloudflare ( y por qué nunca has oído hablar de ello )

La mayoría de las personas nunca visitan cloudflare.com a propósito, pero tocan su red todos los días. Cloudflare se encuentra en medio del “camino” de Internet entre tú y los sitios web que utilizas. En términos simples, Cloudflare:

Acelera los sitios web almacenando en caché el contenido y enrutando el tráfico de manera eficiente (una red de entrega de contenido, o CDN);
Los protege de ataques DDoS y bots maliciosos;
Filtra el tráfico para decidir qué parece seguro y qué no.

La empresa dice que maneja el tráfico de aproximadamente una quinta parte de todos los sitios web en todo el mundo. También procesa una gran cantidad de solicitudes HTTP cada segundo, actuando silenciosamente como el portero y el policía de tráfico para grandes partes de la web.

Esa escala es genial cuando todo está funcionando. Cuando no lo está, toda la internet puede sentirse de repente frágil.

El pequeño archivo que causó el bloqueo

El postmortem de Cloudflare cuenta una historia sorprendentemente mundana. Un archivo de configuración (básicamente un conjunto de reglas) utilizado por su sistema de gestión de bots y amenazas se estaba generando automáticamente. Con el tiempo, ese archivo creció más de lo que los ingenieros esperaban.

En algún momento, se superó un límite estricto en el software responsable de manejar el tráfico para varios servicios de Cloudflare. Debido a un error latente en ese código, el sistema no falló de manera elegante. En cambio, el archivo de gran tamaño provocó un fallo en un componente central de manejo de tráfico.

A partir de ahí, las cosas se intensificaron:

La función de gestión de bots intentó aplicar la nueva configuración, que era demasiado grande;
El proceso se bloqueó repetidamente en lugar de rechazar el archivo;
Ese colapso se extendió a múltiples servicios que dependían del mismo software;
A medida que más nodos fallaron, un gran segmento de la red de Cloudflare comenzó a devolver errores en lugar de páginas web.

El CTO de Cloudflare, Dane Knecht, calificó la interrupción de “inaceptable” y dijo que la compañía había “fallado” a sus clientes y a la internet en general, prometiendo cambios para que un solo error de configuración no pueda causar la misma reacción en cadena nuevamente.

¿Están empeorando las interrupciones o solo son más ruidosas?

Si sientes que estos incidentes están ocurriendo con más frecuencia, no eres el único. Esta interrupción de Cloudflare ocurrió solo unas semanas después de un importante incidente de Amazon Web Services que dejó fuera de línea a miles de sitios web y aplicaciones, desde Snapchat y Reddit hasta las herramientas internas de las que las empresas dependen todos los días.

Las empresas de monitoreo de redes han estado rastreando interrupciones a gran escala en Internet durante años. Sus datos sugieren algo sutil:

El número de grandes interrupciones cada año no está explotando;
Pero el impacto de cada interrupción está creciendo, porque más servicios dependen de los mismos proveedores centrales.

Hace veinte años, si el servidor de correo electrónico de tu empleador fallaba, arruinaba tu día, pero solo para tu empresa. Hoy en día, cuando Cloudflare o AWS tienen una mala mañana, millones de personas y empresas lo sienten al mismo tiempo.

Además, ahora la gente transmite cada error en X, Reddit y TikTok. Incidentes que alguna vez podrían haber pasado desapercibidos como “problemas de mantenimiento” ahora parecen y se sienten como crisis globales.

Menos proveedores, mayores riesgos

La interrupción de Cloudflare encaja en un patrón repetido que hemos visto con AWS, Azure y otros grandes actores de infraestructura:

Un pequeño cambio interno ( un ajuste de configuración, una actualización de software, un script que se comporta mal) interactúa con alguna suposición oculta en el sistema;
El manejo de errores no lo captura lo suficientemente temprano;
Los sistemas automatizados amplifican el problema en lugar de contenerlo;
El incidente se extiende a un gran número de clientes que dependen de la misma plataforma.

Hemos optimizado internet para velocidad, costo y escala global. La forma más fácil de conseguirlo es utilizar un puñado de grandes proveedores con centros de datos en todas partes y equipos de ingeniería de clase mundial.

La compensación es la concentración. Cuando un ISP local tiene un problema, una ciudad se desconecta. Cuando Cloudflare falla, parece que toda la internet simplemente ha desaparecido.

Lo Que Dicen los Líderes Tecnológicos Sobre la Caída

Aunque Elon Musk no comentó directamente sobre el error de Cloudflare, ha advertido repetidamente sobre la infraestructura digital excesivamente centralizada, especialmente en relación con la propia resiliencia de X y su cambio hacia sistemas más autoalojados. En 2023-2025, a menudo señaló que depender de un solo proveedor para ejecutar grandes partes de Internet es “un problema de punto único de falla”, una crítica que ha aplicado a AWS, Apple, Google, capas al estilo de Cloudflare e incluso a los operadores móviles.

El propio CTO de Cloudflare entregó la reacción más fuerte y clara ante la interrupción. Knecht se disculpó públicamente y dijo que el incidente era “inaceptable” debido a cuántas organizaciones y usuarios dependen de la infraestructura de Cloudflare. También enfatizó que la causa no fue un ataque, sino un error de configuración que desencadenó una falla en cascada, algo que describió como una prioridad máxima para prevenir en el futuro.

Jeff Barr, el Evangelista Jefe de Amazon Web Services, no abordó la interrupción de Cloudflare, pero frecuentemente habla sobre las interrupciones de AWS y el patrón general detrás de fallos a escala global. Su mensaje de larga data: cuanto más interconectado está el sistema y cuanto más automatizados son los procesos, mayor es el riesgo de errores en cascada.

Y al fin, el CEO de Cloudflare, Matthew Prince, habló. Ha hablado durante años sobre la delicada arquitectura de internet, especialmente las partes que nadie nota hasta que se rompen. A menudo argumenta que la salud fundamental de la web depende de la resiliencia, no de la perfección.

Él ha repetido temas como:

Las mayores amenazas son las configuraciones incorrectas internas, no los atacantes;
La redundancia debe estar incorporada en cada capa;
Internet está unido por “una cantidad sorprendente de cinta adhesiva”.

No emitió una larga declaración pública durante las primeras consecuencias de esta interrupción, pero los temas de sus entrevistas anteriores se aplican directamente.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.