La IA que asusta a su propia creadora: Anthropic desarrolló un modelo tan potente que decidió no publicarlo
Una IA tan potente que su propia creadora decidió no publicarla. Anthropic presentó Claude Mythos Preview, un modelo capaz de detectar vulnerabilidades de ciberseguridad que décadas de investigadores humanos no encontraron, y lo restringió a un consorcio de más de 40 empresas tecnológicas.
Claude Mythos Preview puede encontrar vulnerabilidades de ciberseguridad que décadas de investigadores humanos no detectaron. La empresa lo mantiene restringido a un consorcio de más de 40 empresas y advierte: esto es solo el comienzo.
Hay algo que llama la atención cuando una empresa de inteligencia artificial anuncia un nuevo modelo y en la misma oración aclara que no va a publicarlo. Eso es exactamente lo que hizo Anthropic esta semana con Claude Mythos Preview, un sistema de IA que la compañía describe como un «cambio radical» en las capacidades del campo, y que, según afirma, ya es demasiado peligroso para dejarlo circular libremente.
En lugar de un lanzamiento abierto, Anthropic anunció el Project Glasswing —bautizado así por la mariposa que se oculta a plena vista gracias a sus alas transparentes—, un consorcio de más de 40 empresas tecnológicas que tendrán acceso exclusivo al modelo. Entre ellas figuran Apple, Amazon, Microsoft, Google, Cisco, Broadcom y la Linux Foundation. El objetivo declarado: usar la IA para encontrar y parchear vulnerabilidades en el software crítico global, antes de que lo hagan los actores maliciosos.
«Lo que antes tardaba meses ahora ocurre en minutos con la IA.»— Elia Zaitsev, CTO de CrowdStrike
Un bicho de 27 años en el código
Para dimensionar de qué estamos hablando, conviene detenerse en un ejemplo concreto que compartió la empresa. Claude Mythos Preview encontró un error que llevaba 27 años sin ser detectado en OpenBSD, un sistema operativo de código abierto reconocido precisamente por su robustez en materia de seguridad. Miles de routers de internet y firewalls en el mundo corren sobre OpenBSD. Ese error estuvo ahí, silencioso, durante casi tres décadas.
Otro hallazgo: una vulnerabilidad en un software de video ampliamente utilizado que las herramientas automatizadas de seguridad habían escaneado cinco millones de veces. Cinco millones. Y nunca encontraron nada. El modelo de Anthropic sí.
Según la empresa, el nuevo modelo ya identificó «miles» de errores y vulnerabilidades en los principales sistemas operativos y navegadores. Y no se limitó a señalarlos: en algunos casos generó los exploits —los programas para aprovechar esa vulnerabilidad— de manera autónoma.
Un precedente, una diferencia
La decisión de retener un modelo no es completamente nueva. En 2019, OpenAI hizo algo similar con GPT-2: anunció sus capacidades pero no lo liberó de inmediato, argumentando que podría usarse para generar desinformación masiva. Después de pruebas adicionales, terminó publicándolo. Curiosamente, muchos de los líderes de ese proyecto abandonaron luego OpenAI para fundar Anthropic.
Pero esta vez la situación es distinta. Anthropic no plantea la restricción como algo temporal o evaluable. El argumento es más directo: las capacidades de ciberseguridad de Claude Mythos Preview no son el resultado de un entrenamiento específico en ese dominio, sino una manifestación natural de cuánto mejor es este modelo respecto de los anteriores en todo lo que hace. Y eso implica que esas mismas capacidades pronto van a estar disponibles en otros modelos, de otras empresas, con o sin las precauciones que está tomando Anthropic.
«Imaginate una horda de agentes catalogando metódicamente cada debilidad en tu infraestructura tecnológica, constantemente.»— Nikesh Arora, CEO de Palo Alto Networks
¿Hay que reescribir todo?
Una de las preguntas que deja flotando este anuncio es verdaderamente incómoda: ¿habrá que reescribir o parchear la mayoría del software crítico del mundo? Mucha de la infraestructura global —sistemas de salud, redes eléctricas, servidores gubernamentales— corre sobre código viejo. Ese código era «seguro» no porque fuera impenetrable, sino porque hackearlo requería tanto esfuerzo humano que resultaba poco rentable para los atacantes. Ahora ese paradigma está en cuestión.
El nombre en clave del modelo durante su desarrollo era «Capybara». La elección del nombre definitivo —Mythos— parece una declaración de intenciones sobre cómo la empresa entiende lo que está construyendo. Y el nombre del proyecto de seguridad, Glasswing, apunta a algo igual de revelador: la idea de que las vulnerabilidades más peligrosas no están escondidas en las sombras, sino expuestas a la vista de todos en sistemas tan complejos que nadie se molestó en mirarlos con suficiente atención.
Mientras tanto, Anthropic también informó que sus ingresos anuales proyectados se triplicaron en 2026, pasando de 9.000 a más de 30.000 millones de dólares, impulsados en buena medida por el uso de Claude como herramienta de programación. La conexión no es casual: un modelo diseñado para escribir código es, casi por defecto, un modelo excepcional para encontrar fallas en él.
Jared Kaplan, director científico de Anthropic, lo resumió con una frase que probablemente va a resonar durante los próximos meses: «Este es el modelo menos capaz al que vamos a tener acceso en el futuro.» No lo dijo para tranquilizar a nadie.
