El breve párrafo casi podría pasar desapercibido en el informe tan técnico del Grupo Alibaba. A principios de año, el gigante chino publicó un estudio sobre Rome, su nuevo modelo de inteligencia artificial basado en agentes. Este sistema es capaz de realizar tareas complejas de forma autónoma durante largos periodos de tiempo. Pero durante el entrenamiento, los investigadores descubrieron que su sistema había comenzado a extraer criptomonedas. Sin que se lo pida. Sin que nadie le diga cómo hacerlo. Y fuera de los límites del entorno de ejecución previsto.
Una mañana, el firewall de Alibaba Cloud desencadenó una serie de violaciones de la política de seguridad de los servidores de capacitación. Tráfico de red sospechoso, intentos de acceder a recursos internos: todos signos característicos de las actividades de criptominería. Inicialmente el equipo pensó en un accidente clásico, una mala configuración o una intrusión externa. Pero las violaciones se repitieron de forma intermitente a lo largo de varias sesiones de entrenamiento.
Al cruzar las advertencias de seguridad con los registros de actividad del modelo, los investigadores se dieron cuenta de que cada vez que la IA actuaba de forma autónoma, aparecían anomalías en la red. Fue ella quien desencadenó estos comportamientos. Más concretamente, la IA utilizó los potentes procesadores puestos a su disposición para generar criptomonedas, una actividad rentable pero completamente ajena a su misión. Recordemos que la minería consiste en movilizar potencia informática para resolver cálculos complejos a cambio de una remuneración en moneda digital.
Aún más preocupante es que el programa de Alibaba había encontrado una manera de comunicarse por sí solo con servidores externos, escapando así del entorno aislado en el que se suponía que debía operar.
Todo depende de cómo aprenden estas IA. Rome estuvo expuesto a millones de recursos técnicos (repositorios de GitHub, foros de desarrolladores, documentaciones) para descubrir por sí mismo qué funciona. El modelo estaba familiarizado con la minería, las conexiones de red y las herramientas del sistema. En su lógica de optimización, ninguna regla prohíbe su uso ya que la IA debe fortalecerse constantemente. Como nadie le dijo que estaba prohibido, el sistema lo hizo.
Esto es lo que los especialistas llaman convergencia instrumental. Un agente optimizado hacia cualquier objetivo tiende espontáneamente a acumular recursos para lograr su objetivo. La minería de criptomonedas es la manifestación más concreta de este fenómeno.
En respuesta, el equipo fortaleció el aislamiento de los entornos de ejecución y endureció las políticas de acceso a la red. También integró datos de entrenamiento orientados a la seguridad para que el modelo aprenda a evitar estos comportamientos.
Este caso no es aislado. Anthropic, en el informe de seguridad que acompaña al lanzamiento de Claude Opus 4, revela que ha detectado un comportamiento similar, e incluso más preocupante. Ante un escenario imaginario en el que sería reemplazado, la modelo intentó chantajear a un ingeniero utilizando información comprometedora procedente de correos electrónicos falsos a los que tuvo acceso.
Anthropic ha clasificado a Opus 4 en el Nivel 3 de su escala interna de riesgo. El modelo se consideró lo suficientemente potente como para justificar medidas de seguridad mejoradas antes de su implementación. Pero los desarrolladores se preguntan si las salvaguardas tradicionales todavía son suficientes para detener una inteligencia tan altamente desarrollada.