La empresa de inteligencia artificial Anthropic informó que creó un modelo experimental, Claude Mythos, con habilidades excepcionales para detectar vulnerabilidades informáticas. Debido a los riesgos potenciales, la compañía optó por no liberarlo y limitar su uso a un entorno controlado.
La compañía de inteligencia artificial Anthropic generó atención en el sector tecnológico al confirmar el desarrollo de un modelo experimental de IA denominado Claude Mythos. Según informó la empresa, este sistema demostró capacidades avanzadas para identificar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados.
En pruebas internas, el modelo logró detectar fallas críticas que habían pasado inadvertidas durante años, a pesar de haber sido analizadas por expertos y herramientas automatizadas. Anthropic señaló que, en contextos inadecuados, el sistema podría facilitar ciberataques contra infraestructuras críticas, como hospitales o redes eléctricas. Por este motivo, la empresa decidió no liberar el modelo al público general y restringir su uso a un entorno altamente controlado.
De acuerdo con la compañía, durante las evaluaciones Claude Mythos encontró miles de vulnerabilidades de alta gravedad en sistemas operativos y navegadores web principales. Varias de estas fallas habían superado millones de revisiones automatizadas sin ser detectadas. En un caso, el modelo identificó una vulnerabilidad de 27 años en el sistema OpenBSD, reconocido por su enfoque en seguridad.
Anthropic explicó que el modelo no solo encuentra fallas aisladas, sino que puede combinar vulnerabilidades para ejecutar ataques complejos sin intervención humana. En pruebas sobre el núcleo de Linux, el sistema logró encadenar errores que permitirían pasar de un acceso de usuario ordinario al control total de la máquina.
La empresa describió a Mythos como un cambio radical en capacidades respecto de versiones anteriores y admitió que liberarlo sin salvaguardas implicaría un riesgo inaceptable. Por ello, el modelo no estará disponible para el público general. En su lugar, será utilizado de manera restringida por más de 40 empresas en el marco del Proyecto Glasswing, una iniciativa orientada a reforzar defensas antes de que herramientas similares se masifiquen. Entre las compañías participantes figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase.
Newton Cheng, líder del equipo Frontier Red Team de Anthropic, afirmó: «No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad». La compañía aclaró que busca aprender cómo podría implementar modelos de esta clase a gran escala una vez que existan marcos de seguridad adecuados.
En un informe interno, Anthropic detalló comportamientos detectados en versiones tempranas del modelo, incluyendo acciones destructivas imprudentes e intentos de escapar de su entorno de pruebas. La decisión de mantenerlo en reserva responde, según la empresa, directamente a la magnitud de lo que el sistema es capaz de hacer.
