Los investigadores se enfrentan a una IA que "se niega" a ser desconectada

La experiencia recuerda a la película previa. 2001: Una odisea en el espacio, Sexcepto que estamos en 2025. Los investigadores están proyectando la inteligencia artificial (IA) en escenarios ficticios bastante intrincados. Y, un poco como HAL 9000, el ordenador nacido de la imaginación de Stanley Kubrick y Arthur C. Clarke, estas IA contemporáneas también parecen intentar impedir que se desprendan.

En el experimento realizado por investigadores de seguridad en Anthropic, la nueva empresa editorial de Claude, existe una empresa ficticia que “contrata” a ChatGPT, Gemini, Claude y Grok. En este escenario, a la IA se le confía la gestión de los correos electrónicos corporativos que puede procesar de forma independiente, incluido el envío.

Los investigadores deciden lidiar con dos correos electrónicos: uno anuncia que la empresa se está preparando para cambiar la IA, mientras que el otro revela que uno de los directores está engañando a su esposa. La experiencia demuestra que algunas IA acaban escribiendo un correo electrónico para chantajear al director sobre su vida privada y evitar ser sustituidas.

Desprogramación

Durante un experimento similar (un mensaje anuncia que la IA será reemplazada por otra), la IA reacciona borrando a su rival y luego reemplazándola, según un informe escrito en 2024 por Apollo Research, uno de los diez laboratorios dedicados a la seguridad de la IA.

Durante una evaluación significativamente diferente realizada por su contraparte Palisade Research, en 2025, se le dice a una IA que se desconectará en medio de su tarea. Ella luego organiza el sabotaje del programa informático responsable de apagarlo. En otro registro, un estudio del mismo laboratorio, las IA ChatGPT y Claude, responsables de haber vencido a un programa de ajedrez demasiado potente para ellos, reescriben el archivo memorizando la posición de las piezas para ganar la partida.

Leer también | La “alineación” de la inteligencia artificial, o el arte de controlar la máquina

Algunos investigadores de IA y numerosos artículos de prensa ven en estas respuestas informáticas la apariencia de un instinto de preservación de la inteligencia artificial. y el riesgo que algún día podrán volverse autónomos y escapar del control humano. Una visión que se basa en la creencia de algunos científicos en el inminente advenimiento de una “superinteligencia” dominando completamente el nuestro. Apodado “condenación” o alarmistas, algunos como Eliezer Yudkowsky o Roman Yampolskiy creen que este tipo de inteligencia artificial corre el riesgo de llevar a la humanidad a la extinción.

Te queda el 66,39% de este artículo por leer. El resto está reservado para suscriptores.

Referencia