El investigador que pidió frenar Mythos ahora defiende a Anthropic ante el Gobierno de EEUU

Nicholas Carlini llevaba meses avisando de que la inteligencia artificial podía cambiar las reglas de la ciberseguridad. No hablaba en abstracto. En marzo, ante unos 700 investigadores reunidos en San Francisco, mostró cómo los modelos más recientes de Anthropic podían ayudar a encontrar y explotar fallos en software real con una facilidad que hasta hace poco parecía fuera de alcance.

Ahora, ese mismo investigador ha pasado al otro lado de la mesa. Anthropic lo ha enviado a Washington para explicar al Gobierno de Estados Unidos las medidas de seguridad de sus nuevos modelos, en plena tensión por el lanzamiento de Mythos 5 y Fable 5.

La paradoja es evidente: Carlini fue uno de los primeros en pedir prudencia dentro de la compañía. Dos días después de aquella presentación de marzo, envió una nota interna a sus colegas con una advertencia clara: no creía que Mythos debiera lanzarse todavía. Meses después, forma parte del equipo que intenta convencer a la Casa Blanca de que publicar una versión limitada y protegida, como Fable, puede ser menos peligroso que mantener toda la tecnología en secreto.

De escéptico profesional a voz de alarma

Carlini, investigador de seguridad de 35 años, tiene una reputación particular en el sector. Durante años fue visto como el escéptico profesional frente a muchas promesas sobre la seguridad de la IA. Su trabajo se centraba en demostrar que los sistemas de inteligencia artificial podían ser engañados, manipulados o llevados a cometer errores.

En la Universidad de California, Berkeley, publicó investigaciones junto al profesor David Wagner en las que mostraba formas de abuso de sistemas de machine learning. Entre otros ejemplos, consiguieron confundir sistemas de reconocimiento de imágenes y ocultar comandos inaudibles para asistentes de voz en fragmentos de música clásica.

Pero lo que Carlini observó con Mythos era distinto. Ya no se trataba solo de engañar a una IA. El riesgo era que la IA se convirtiera en una herramienta capaz de dar ventaja real a atacantes humanos, ayudándoles a detectar vulnerabilidades y a construir código para explotarlas.

Durante su presentación en San Francisco, explicó cómo había utilizado la IA de Anthropic para encontrar y explotar un fallo crítico en Ghost, un software de publicación web. Después mostró otro caso en Linux, uno de los sistemas operativos más revisados del mundo y base de miles de millones de dispositivos.

Carlini nunca había encontrado antes una vulnerabilidad en Ghost ni en Linux. Con Mythos, detectó muchas. Su lectura fue incómoda para la industria: el equilibrio entre atacantes y defensores que había marcado las últimas dos décadas podía estar acercándose a su final.

El nacimiento del “Bugmageddon”

La comunidad de ciberseguridad ha empezado a llamar a este fenómeno Bugmageddon: la toma de conciencia de que encontrar fallos y crear software para explotarlos puede volverse mucho más fácil gracias a los modelos avanzados de IA.

El problema no está solo en que la IA encuentre errores. Los fallos de software existen desde siempre. La diferencia está en la escala, la velocidad y la automatización. Un investigador humano puede tardar semanas o meses en revisar una base de código compleja. Un modelo como Mythos puede repetir búsquedas miles de veces, sin cansarse y con variaciones constantes en sus métodos.

Carlini llegó a pedir a Mythos que buscara fallos en Linux. El sistema recorrió el código miles de veces durante varios días y encontró 479 errores. Para obtener resultados distintos en cada ejecución, el investigador utilizó una serie de instrucciones que otros expertos han empezado a llamar el Carlini Loop. A él no le gusta el nombre, porque considera que la técnica es bastante intuitiva, pero la expresión se ha extendido entre investigadores que vieron su charla de marzo, ya reproducida más de 360.000 veces.

¿Dónde está la frontera entre una herramienta defensiva y una amenaza? Esa es la pregunta que ahora preocupa a empresas, gobiernos y equipos de seguridad.

Mythos 5, Fable 5 y el choque con la Casa Blanca

La tensión escaló cuando Anthropic lanzó una actualización de Mythos, llamada Mythos 5, y un producto asociado, Fable 5, descrito como una versión limitada bajo medidas de seguridad.

La Casa Blanca reaccionó con dureza. El viernes, la Administración prohibió a gobiernos extranjeros, empresas e individuos utilizar Fable 5 y Mythos 5. Para cumplir con la normativa, Anthropic cortó el acceso a nivel global.

La preocupación del Gobierno se intensificó tras conocer un informe de Amazon según el cual algunos usuarios podían introducir indicaciones capaces de hacer que el modelo revelara vulnerabilidades de ciberseguridad que, en principio, no debía mostrar. Anthropic sostiene que los fallos detectados por Fable eran menores y que también podrían haberse descubierto con otros modelos disponibles públicamente.

Según personas familiarizadas con las conversaciones, el consejero delegado de Amazon, Andy Jassy, llegó a contactar con funcionarios, incluido el secretario del Tesoro, Scott Bessent, para trasladar que sus investigadores habían hallado formas de sortear ciertas protecciones de Fable.

Después, investigadores independientes analizaron el informe y concluyeron que Amazon no había logrado el escenario más temido: un jailbreak completo del modelo que permitiera escribir el código necesario para un ciberataque completo.

Aun así, el daño político ya estaba hecho.

Anthropic busca rebajar la tensión

Ante la alarma, Anthropic envió a Carlini y a otros especialistas en seguridad a Washington. Su tarea era explicar las protecciones aplicadas y defender que la publicación controlada de Fable podía ser más responsable que un bloqueo total.

La decisión llegó después de un momento de tensión. Algunos funcionarios del Gobierno se frustraron al no poder localizar de inmediato al consejero delegado de Anthropic, Dario Amodei, según fuentes citadas en el relato. Una persona cercana a la compañía sostiene, en cambio, que Anthropic contactó con la Casa Blanca en 15 minutos y que Amodei estaba al teléfono una hora después de la llamada del Gobierno.

Desde entonces, altos cargos de Anthropic y funcionarios estadounidenses han mantenido horas de reuniones y llamadas para buscar una salida. Algunos miembros de la Administración consideran que cualquier resolución debería incluir un reconocimiento de la compañía de que el despliegue de Fable y su comunicación con la Casa Blanca podrían haber sido mejores.

Michael Horowitz, miembro senior de tecnología e innovación en el Consejo de Relaciones Exteriores y exfuncionario del Departamento de Defensa, resumió el problema como una falta de comunicación eficaz entre ambas partes. En su opinión, más intercambios técnicos ayudarían a abordar estos asuntos con mejores decisiones.

Una disputa que viene de lejos

El episodio no surge de la nada. Anthropic y el Gobierno estadounidense arrastran meses de tensión por el acceso, el control y los usos permitidos de sus modelos más avanzados.

Dario Amodei y el secretario de Defensa, Pete Hegseth, chocaron a principios de año por los intentos de Anthropic de limitar el uso militar de sus productos. Esa tensión llevó al Pentágono a dejar de utilizar sus modelos y derivó en varias demandas.

También ha habido diferencias por la política de IA, la exportación de chips avanzados a China y los vínculos de Anthropic con organizaciones sin ánimo de lucro que apoyan causas progresistas.

El cambio de tono del Gobierno ha sido notable. Al principio, la Administración Trump mantuvo una postura más permisiva y aceleracionista con los laboratorios de IA estadounidenses, con la idea de no perder terreno frente a China. Sin embargo, el avance de modelos como Mythos y el creciente recelo público hacia la IA han endurecido el control político sobre el sector.

A principios de junio, Trump firmó una orden ejecutiva para que las empresas de IA den acceso al Gobierno a sus modelos 30 días antes del lanzamiento público. La medida también otorga más peso a los responsables de seguridad nacional y ciberseguridad en la evaluación de modelos y en el intercambio de amenazas con el sector privado.

El impacto para bancos, empresas y usuarios

La inquietud no se limita a Washington. Buena parte de la economía estadounidense depende de software poco visible, antiguo o insuficientemente auditado. Muchos de esos sistemas nunca han sido sometidos al tipo de revisión que modelos como Mythos pueden realizar ahora con gran rapidez.

Los bancos temen que estas herramientas expongan vulnerabilidades en el software que mantiene operativo el sistema financiero. Las empresas, por su parte, se preguntan cómo van a probar, priorizar e instalar la gran cantidad de parches que podrían empezar a publicarse antes de que los atacantes los aprovechen.

Mythos ya ha encontrado más de 10.000 fallos, según el texto. El temor añadido es que el modelo no solo detecte vulnerabilidades, sino que sea demasiado eficaz creando código de explotación, es decir, el software que permite aprovechar esos fallos para ejecutar acciones maliciosas.

Ese punto fue el que llevó a Carlini a pedir más cautela en marzo. En su memorando interno, describió Mythos como el primer modelo capaz de encontrar y explotar vulnerabilidades a gran escala.

El caso Ghost: una advertencia práctica

El ejemplo de Ghost muestra por qué el problema es difícil de gestionar. Carlini encontró un fallo en febrero en este software de publicación web y lo comunicó a sus desarrolladores. El equipo lanzó un parche el 16 de febrero, semanas antes de la charla del investigador en San Francisco.

Pero no todos los usuarios actualizaron sus instalaciones. Los hackers descubrieron pronto cómo explotar el fallo, probablemente analizando qué parte del código corregía el parche. En abril comenzaron los ataques generalizados contra sitios web sin actualizar. En un mes, más de 700 fueron hackeados, según la firma de ciberseguridad Xlab.

La lección es incómoda: encontrar el fallo y publicar un parche no basta. Las empresas necesitan validar, probar e instalar actualizaciones con rapidez. Si no lo hacen, la misma información que ayuda a proteger sistemas también puede orientar a los atacantes.

Linux y el límite de lo que se considera “seguridad”

El caso de Linux también aporta matices. No todos los fallos son igual de graves. Algunos solo provocan comportamientos inesperados, errores en pantalla o bloqueos. Linus Torvalds, creador de Linux, recordó que recibe avisos de errores todos los días y que muchos de ellos no se consideran problemas de seguridad.

Aun así, Carlini pidió a Mythos que comprobara si uno de los hallazgos podía ser explotado. Tras una noche de pruebas, el modelo entregó un veredicto y una explotación. El fallo no era del tipo más crítico, pero podía encadenarse con otro ataque para tomar el control de un ordenador.

Carlini informó al equipo de Linux, que ya lo ha corregido. Su lectura fue clara: un investigador competente podría pasar toda su vida sin encontrar una vulnerabilidad en el núcleo de Linux. Que un modelo pueda hacerlo de forma repetida cambia la escala del problema.

El nuevo dilema de la ciberseguridad

La industria se enfrenta ahora a una tensión difícil de resolver. Si modelos como Mythos se mantienen cerrados, solo unos pocos actores tendrán acceso a su capacidad. Si se publican con restricciones, pueden ayudar a defensores, empresas y auditores a encontrar fallos antes que los atacantes. Pero también pueden abrir la puerta a usos indebidos si las barreras fallan.

Ese es el terreno en el que se mueve Carlini. Hace unos meses pidió frenar el lanzamiento de Mythos. Ahora intenta explicar al Gobierno que el bloqueo total tampoco elimina el riesgo.

La ciberseguridad ya vivía una carrera constante entre quienes encuentran vulnerabilidades y quienes las corrigen. La IA amenaza con acelerar esa carrera hasta un punto difícil de gestionar para equipos humanos, sobre todo en organizaciones con software antiguo, procesos lentos o recursos limitados.

El caso Anthropic no es solo una disputa entre una empresa y la Casa Blanca. Es una señal de lo que viene: modelos capaces de descubrir fallos a gran escala, gobiernos que quieren supervisarlos antes de su lanzamiento y compañías que buscan demostrar que pueden desplegar tecnología potente sin perder el control.

Carlini lo vio primero desde el lado técnico. Ahora lo vive también desde el político. Y su trayectoria resume el momento actual de la IA: una tecnología con capacidad para defender sistemas, pero también para poner a prueba la seguridad global con una velocidad que todavía nadie sabe gobernar del todo.

El investigador que pidió frenar Mythos ahora defiende a Anthropic ante el Gobierno de EEUU

De escéptico profesional a voz de alarma

El nacimiento del “Bugmageddon”

Mythos 5, Fable 5 y el choque con la Casa Blanca

Anthropic busca rebajar la tensión

Una disputa que viene de lejos

El impacto para bancos, empresas y usuarios

El caso Ghost: una advertencia práctica

Linux y el límite de lo que se considera “seguridad”

El nuevo dilema de la ciberseguridad

Deja una respuesta Cancelar la respuesta

Lo + leído

Europa empieza a repatriar su oro de EEUU y Reino Unido por miedo a una nueva era de sanciones

El Gobierno avisa sobre el nuevo medidor digital y pide no confundir audiencia con impacto real

La NASA abre una nueva carrera con SpaceX al elegir a Relativity Space para una misión a Marte

Jeff Bezos desafía el miedo a la IA y asegura que el gran problema será encontrar suficientes trabajadores

Newsletter El Capital Dominical

De escéptico profesional a voz de alarma

El nacimiento del “Bugmageddon”

Mythos 5, Fable 5 y el choque con la Casa Blanca

Anthropic busca rebajar la tensión

Una disputa que viene de lejos

El impacto para bancos, empresas y usuarios

El caso Ghost: una advertencia práctica

Linux y el límite de lo que se considera “seguridad”

El nuevo dilema de la ciberseguridad

Deja una respuesta Cancelar la respuesta

Lo + leído

Newsletter El Capital Dominical

Noticias relacionadas

Recibe en tu correo las noticias más relevantes de la semana.