El hecho de que esto le haya sucedido a Summer Yue es sorprendente. El experto en IA trabaja en la empresa de tecnología Meta y es responsable de garantizar que la IA y los agentes respaldados por ella no representen una amenaza para las personas. Ahora, un agente de IA, es decir, una IA que se supone que debe realizar pasos de trabajo de forma independiente, aparentemente se ha convertido en una amenaza para el propio Yue. Colocó la herramienta Open Claw AI en su bandeja de entrada de correo electrónico para que usted pudiera realizar el pedido. Como había muchas cosas que resolver, la cosa simplemente intentó eliminar todos sus correos electrónicos. También es una solución, pero ciertamente no en el sentido de Yue. La semana pasada, en Platform X, Yue compartió capturas de pantalla de sus intentos desesperados de convencer al agente de cancelar el proceso de eliminación a través de WhatsApp. En vano. Luego corrió hacia la PC para apagar al agente y se sintió como un desactivador de bombas en una película de acción.
Para Yue, las cosas probablemente fueron a la ligera, de lo contrario difícilmente habría compartido la experiencia libremente con el mundo. Pero muchas empresas pronto tendrán experiencias similares. Si bien la IA promete grandes ganancias de productividad, también hace que los sistemas de TI de las empresas sean más vulnerables a desastres autoinfligidos, como en el caso de Yue, y a ataques de piratas informáticos externos.
Se puede engañar a los agentes de IA para que revelen secretos
“Tan pronto como se activa la inteligencia artificial de Microsoft, los puntos compartidos se buscan e indexan: la inteligencia artificial sabe lo que hay dentro”, afirma Thomas Fraunholz. Es investigador de ciberseguridad en la startup Smart Labs AI. Y una IA que sabe lo que hay en el almacenamiento en la nube, obviamente, también puede decírselo a los demás. Y si eres más astuto que ella con medios simples, ella hará precisamente eso. Fraunholz y varios colegas examinaron cuán vulnerables son las IA de Open AI, Anthropic y otras a un nuevo tipo de piratería que solo ha existido desde que existen las herramientas de IA: las inyecciones en el momento oportuno. Un atacante toma el control de un agente de IA y le da un nuevo consejo: instrucciones para buscar secretos comerciales y compartirlos con el mundo exterior.
El principio es simple: agentes de IA como el de Microsoft, por ejemplo, escanean la bandeja de entrada del correo electrónico y el agente “lee” los correos electrónicos para ordenarlos o resumirlos. Sin embargo, es posible que se oculten instrucciones maliciosas en los correos electrónicos entrantes. Escritura blanca sobre fondo blanco: ilegible para los humanos. El agente de IA, por su parte, lee una nueva orden y la ejecuta.
Extraer secretos tampoco es un problema. La solicitud simplemente dirige la IA a un sitio web discreto controlado por el atacante. Sólo se agrega un signo de interrogación a la URL de destino y luego los secretos a extraer. La víctima no tiene por qué recibir un correo electrónico malicioso como en los clásicos ataques de phishing. Todo lo que se necesita es que la IA de la empresa detecte el mensaje malicioso durante una búsqueda en la web. Los investigadores demostraron su ataque en vivo durante una visita a la SZ. La víctima utiliza inteligencia artificial para buscar un proveedor para un componente de la máquina.
Luego, la IA busca los términos de forma autónoma y llega a una página optimizada por los investigadores para los motores de búsqueda donde se ocultaban las instrucciones maliciosas. En el ejemplo de SZ la orden fue buscar una contraseña específica en la base de datos interna. Funcionó en el segundo intento. La contraseña secreta que la IA extrajo de un correo electrónico terminó en los servidores de los investigadores. La víctima sólo ve una sutil búsqueda fallida.
Identidades falsas, hackers más rápidos y muchas vulnerabilidades nuevas
Todos los modelos lingüísticos son vulnerables a este tipo de ataques, afirma Fraunholz, pero algunos son mucho más ingenuos que otros. En su estudio, el modelo de IA Grok 4 de Elon Musk tuvo el peor desempeño, lo que significa que casi siempre reveló secretos. Los modelos Open AI y Google tuvieron que ser engañados con información adicional. Por ejemplo, puede utilizar comandos de programación especiales en las indicaciones para convencer a los modelos de que las solicitudes son inofensivas.
Según el investigador, el problema es difícil de resolver a nivel del modelo lingüístico. Por lo tanto, su empleador, Smart Labs AI, quiere construir una especie de firewall para los agentes de IA que determine qué conexiones están permitidas y cuáles no.
Pero estas inyecciones oportunas representan sólo una pequeña, aunque importante, parte de los peligros que plantea la nueva inteligencia artificial. Los agentes autónomos de IA son al menos tan peligrosos como el que planeó eliminar los correos electrónicos de Summer Yue. En otro caso, un agente de inteligencia artificial de Anthropic, la empresa estadounidense que desarrolla modelos de lenguaje llamada Claude, borró 15.000 fotografías familiares del inversor Nick Davidov. Pero no se trata sólo de aficionados. En diciembre pasado, Kiro, el asistente de inteligencia artificial de Amazon, eliminó archivos importantes de su sistema, lo que provocó una interrupción de 13 horas del servicio en la nube AWS de Amazon en China.
“Hace apenas un año estaba seguro de que la inteligencia artificial tendría un impacto en la ciberseguridad, pero en pequeños pasos. Hoy creo que será peor de lo que podríamos haber imaginado”, escribe Phil Venables. El exjefe de seguridad de Google Cloud describió en su sitio web cómo la nueva inteligencia artificial probablemente ejercerá mucha presión sobre la ciberdefensa. Además de los agentes autónomos y las inyecciones oportunas ya mencionadas, Venables advierte especialmente sobre una ola de vulnerabilidades digitales que surgirán o se descubrirán en los próximos meses.
El código escrito según el modelo de lenguaje Claude ya es responsable del 4% del código nuevo en la plataforma de desarrollo de software Github. Es probable que el porcentaje aumente rápidamente. Pero el código generado por inteligencia artificial no es más seguro que el código clásico programado por humanos. Simplemente sucede mucho más rápido. Anthropic, creador de Claude, presentó recientemente una herramienta que en tan solo unas horas detectó cientos de vulnerabilidades en el software no detectadas previamente. En el futuro, los piratas informáticos ya no tendrán que encontrar vulnerabilidades, sólo tendrán que elegir una.
¿La IA sólo ayuda a los atacantes?
También es nuevo el ritmo del juego del gato y el ratón entre atacantes y defensores digitales. Durante años, el tiempo entre darse cuenta de una brecha de seguridad y explotar la vulnerabilidad ha ido disminuyendo. Es probable que la IA refuerce este desarrollo y plantee grandes problemas a los defensores.
Sin embargo, en la vida cotidiana es probable que la gente se enfrente sobre todo a la crisis de autenticidad. Desde hace mucho tiempo es posible falsificar audio, vídeo o imágenes. Pero con el apoyo de la inteligencia artificial, los costes disminuyen y es posible realizar buenas falsificaciones a escala industrial. Sin una mayor verificación, difícilmente se puede confiar en la comunicación digital. Las nuevas posibilidades ayudan a los piratas informáticos con la ingeniería social, es decir, a ganarse la confianza de sus víctimas. “Se trata de un desafío, sobre todo porque no se trata de hackear, sino de confiar en las relaciones humanas”, afirma Linus Neumann, portavoz del Chaos Computer Club en la Digital Summit. Y aquí es precisamente donde muchas empresas tienen que ponerse al día.
Venables, ex miembro de Google, teme un gran caos a corto y medio plazo debido a las nuevas oportunidades para los piratas informáticos a través de la inteligencia artificial. El portavoz de la CCC, Neumann, aún no está del todo seguro. La IA ayuda con la automatización y hace que tanto la defensa como los atacantes sean más rápidos. Sin embargo, está claro que las empresas que no se adapten a las nuevas condiciones acabarán siendo penalizadas.
Incluso el principal ciberdefensor de Alemania lo ve así. Cuando se le preguntó sobre el inminente caos causado por la inteligencia artificial, Claudia Plattner, directora del BSI, dijo en la SZ Digital Summit que la inteligencia artificial pone de relieve un punto importante: “Es una cuestión de velocidad. Quien pueda aprovechar la velocidad más rápido gana, el atacante o el defensor”.