Construir el clúster de GPUs más grande del mundo es una cosa. Hacer que funcione de forma eficiente es otra completamente distinta, y xAI, la empresa de inteligencia artificial de Elon Musk, está aprendiendo esa lección de la manera más costosa posible. Según un memo interno filtrado a The Information, firmado por el presidente de la compañía Michael Nicolls, xAI opera actualmente alrededor de 550.000 GPUs NVIDIA entre sus instalaciones de Colossus en Memphis, una combinación de modelos H100 y H200 desplegados en configuraciones de enfriamiento líquido que representan una inversión de decenas de miles de millones de dólares, y sin embargo solo está aprovechando el 11% de esa capacidad de forma activa durante los entrenamientos, lo que equivale a unos 60.000 GPUs trabajando mientras los otros 490.000 permanecen encendidos sin hacer nada útil. Para ponerlo en perspectiva, Meta opera sus clústeres al 43% de utilización y Google al 46%, lo que significa que ambas compañías están sacando entre tres y cuatro veces más trabajo del mismo tipo de hardware con una fracción de los problemas de coordinación que enfrenta xAI.

Por qué el 89% del hardware más caro del mundo está idle
El problema no es que los GPUs de xAI estén rotos ni que la compañía no sepa usarlos individualmente. El problema es uno de los desafíos más complejos de la ingeniería de infraestructura de IA a gran escala: coordinar cientos de miles de chips trabajando en paralelo sobre un mismo modelo de entrenamiento sin que el tiempo de espera entre unos y otros destruya la eficiencia del sistema. En configuraciones pequeñas de 1.000 a 10.000 GPUs, los tiempos de inactividad son manejables y no afectan significativamente el rendimiento general. Pero cuando el número escala a 550.000 chips, cada milisegundo que un GPU espera datos del siguiente o se sincroniza con el resto del clúster se multiplica por ese número, y los cuellos de botella en el pipeline de datos y en el stack de software se vuelven el factor limitante del sistema completo.
Meta y Google llegaron a sus tasas de utilización actuales después de años de optimización de sus stacks de software propios, con herramientas como PyTorch en el caso de Meta y JAX con TPUs en el caso de Google, que les permiten distribuir cargas de trabajo de entrenamiento con mucha menos fricción entre chips. OpenAI enfrenta sus propios desafíos de infraestructura mientras debate si construir sus propios data centers o arrendar capacidad de terceros, pero al menos su tasa de utilización no está en los niveles que el memo de xAI describe. El stack distribuido de xAI, según el propio Nicolls, “todavía no es lo suficientemente maduro” para la escala en que opera, lo que genera tiempos de idle más largos y cuellos de botella recurrentes en el pipeline de datos.
El objetivo del 50% y lo que implica
Nicolls estableció en el memo un objetivo de utilización del 50%, una cifra que incluso superaría las tasas actuales de Meta y Google, aunque sin ninguna fecha estimada para alcanzarla. La única certeza es que el cambio clave estará en las optimizaciones de infraestructura y software, no en añadir más hardware, lo que representa un giro significativo para una compañía que construyó su reputación en parte sobre la velocidad con que Musk desplegó Colossus en Memphis, el clúster que pasó de cero a 100.000 GPUs en apenas 122 días en 2024, un récord de velocidad de construcción en la industria que ahora contrasta con la dificultad de hacer que ese mismo hardware trabaje de forma coordinada y eficiente.
El memo también deja en claro que este no es un problema exclusivo de xAI sino un desafío estructural de la industria que se vuelve más difícil a medida que los clústeres escalan. La carrera por acumular GPUs ha llevado a empresas como OpenAI a comprometer cientos de miles de millones en infraestructura que luego resulta más cara y más difícil de operar de lo que sus modelos financieros anticipaban, y el caso de xAI demuestra que tener el hardware no es suficiente si el software no puede aprovecharlo. Con Colossus 2 en construcción y apuntando a 1 millón de GPUs, la presión sobre el equipo de ingeniería de xAI para resolver el problema de utilización antes de que el clúster crezca aún más es considerablemente mayor que cualquier tweet de su fundador sobre la superioridad del sistema.
OpenAI prometió construir data centers por $500.000 millones y ahora prefiere arrendar como cualquier startup sin efectivo, y sus socios prefieren hacer negocios con Microsoft→ OpenAI podría no tener dinero para pagar sus deudas: las metas de ingresos y usuarios no se están cumpliendo y la directora financiera ya encendió las alarmas→
