“Cuando el gato se traga al loro”

Por Philippe Boyer, director de relaciones institucionales e innovación de Covivio.

Esta columna necesitaba un título que correspondiera a la promesa tecnológica del momento. Por un lado, máquinas que dan la impresión de comprender al recombinar estadísticamente las unidades lingüísticas (tokens) introducidas en sus programas (algoritmos), una especie de “loro estocástico” según la metáfora un tanto dura utilizada por Emily Bender en un famoso artículo de 2021. Por el otro, un “gato”, en referencia a palabras del investigador y empresario francés Yann LeCun, para quien este animal es mil veces más inteligente que las máquinas actuales.

Y esto se debe a que un gato sabe intuitivamente orientarse en el espacio, anticipar una caída, sortear un obstáculo y, en general, aprender mediante la interacción con su entorno. Ciertamente el animal no tiene, excepto quizás en Alicia en el país de las maravillas…, ninguna disposición a escribir un texto a la velocidad de la luz o a crear una imagen original, pero al menos comprende la realidad que lo rodea a diferencia de nuestros robots conversacionales que, incluso si estuvieran equipados con brazos o piernas, permanecerían petrificados ante lo inesperado. Para decirlo rápidamente, donde el loro verbaliza, ahí está el gato. Donde el primero se repite, el segundo se adapta.

Pasando del 2D al 3D

Desde la aparición entre el gran público de ChatGPT y de muchos otros chatbots a nuestra disposición (Claude, Gemini, Copilot, sin olvidar nuestro “Le chat” nacional, desarrollado por Mistral AI), nos hemos acostumbrado a considerar el dominio del idioma como una prueba de elocuencia e inteligencia. Admiramos estos sistemas capaces de escribir como nosotros, a veces mejor que nosotros, y casi hemos olvidado la pregunta inicial: ¿entienden estas máquinas de qué están “hablando”? Para Yann LeCun, que acaba de lanzar la start-up AMI tras completar una primera recaudación de fondos de 890 millones de euros, la respuesta es “no”. Y es de esta insatisfacción tecnológica que nació este proyecto para crear una “otra” forma de inteligencia artificial que podría ser capaz de comprender el mundo, es decir, de salir del plano 2D para proyectarse en universos 3D tal como los percibimos los humanos.

fuerza gravitacional

Si los principales modelos lingüísticos han revolucionado nuestros usos porque han dado a la inteligencia artificial una forma sensible a través del diálogo natural, sus fundamentos tecnológicos se basan en la previsibilidad. Gracias a miles de millones de palabras almacenadas en gigantescas masas textuales, son capaces de responder a nuestras preguntas como si “supieran”. De ahí proviene su poder. De ahí también derivan sus límites. Estos sistemas son ciertamente capaces de conceptualizar muchas cosas sobre lo que los humanos han escrito y descrito sobre el mundo, pero desconocen la ontología de este último. Ciertamente saben cómo describir una copa que se rompe en el suelo tomando referencias de su inmenso corpus, pero no tienen idea de lo que realmente representa la fuerza gravitacional. Pueden explicar una maniobra, un procedimiento médico, un movimiento en el espacio pero no lo viven como una serie de limitaciones, causas, efectos y correcciones. Precisamente al imaginar una máquina que algún día podría limpiar la mesa teniendo cuidado de no dejar caer nada porque habría previsto que una placa que cayera tendría el efecto de romperse, entra en juego el trabajo de la startup AMI, pero también de Google Deepmind o World Labs.

De la palabra al mundo

¿La idea inicial? Los “mundos modelos” o “modelos de mundos”. La aparente frialdad del término esconde una idea casi infantil en su formulación: ya no se trata sólo de preguntarle a una IA generativa”.¿Qué decir ahora?” Pero “¿Qué pasará si hago esto?” Todo cambia en este cambio porque pasamos de la extensión discursiva a la anticipación causal, del comentario a la simulación, de la oración a la secuencia de acciones.

Desde esta perspectiva, ya no sería necesario que una inteligencia artificial aprendiera sólo de corpus de texto, sino también de imágenes, sonidos o vídeos. El desafío consiste en darle una forma de física intuitiva, una capacidad de construir una representación interna del mundo suficiente para predecir consecuencias, planificar, corregir, elegir. Si en psicología esto es similar a la noción de “modelo mental”, en robótica se convierte en una condición práctica para toda autonomía. Como un recién nacido que empuja el biberón hasta el borde de la mesa y descubre que un gesto produce un efecto, el modelos globales Su objetivo es darle a la máquina algo de este orden: no una enciclopedia de la realidad, sino una capacidad de actuar integrando regularidades e irregularidades de nuestro entorno.

el camino es largo

El camino será necesariamente largo hasta llegar a la evolución operativa de estos “modelos globales”. Yann LeCun es de la misma opinión y prefiere hablar de JOPA (Arquitectura predictiva con inclusión conjunta / Arquitectura predictiva con inclusión conjunta), no será un simple salto generacional comparable al de los chatbots porque la idea consistirá en hacer que la máquina aprenda no sólo la secuencia más probable de una frase, sino también la estructura subyacente de una situación: qué es estable en un entorno determinado, qué puede variar, qué es probable que suceda a continuación si cambia tal o cual variable.

En concreto, esto implicará entrenar estos sistemas con un gran número de flujos de imágenes, vídeos y sonidos para que formen una representación inteligible de la realidad. En este caso, y al observar que un objeto enmascarado sigue existiendo, que un movimiento produce una trayectoria, que un gesto lleva a una consecuencia, la IA podría registrar todos estos fenómenos físicos y por tanto tener la capacidad de reconocerlos y respetarlos o eludirlos. Estamos todavía en el principio porque, además de las arquitecturas de estos algoritmos, estos “modelos mundiales” también requerirán una enorme potencia informática combinada con microprocesadores con un rendimiento impecable para poder implementar esta IA que “entiende”.

¿Qué salidas concretas para estos modelos globales?

Más allá de la hazaña tecnológica de dotar a la máquina de una comprensión del mundo, existen salidas concretas para esta comprensión. modelos globales son numerosos: en robótica, permitir que las máquinas aprendan a moverse, agarrar, evitar o corregir sus gestos (desde aquí podéis ver las mil variaciones posibles en cuanto a robótica humanoide para personas mayores, por ejemplo); en la industria del automóvil, potenciar sistemas de conducción más capaces de anticipar comportamientos y situaciones poco comunes (el vehículo autónomo finalmente podría ver la luz); en la industria, ofrecer mayores capacidades de simulación, mantenimiento predictivo y optimización de cadenas complejas; en el sector sanitario, ayudando a dar forma a la evolución de un órgano, un tratamiento o un procedimiento médico; en el mundo de la realidad aumentada, los videojuegos o el cine, allanando el camino para entornos interactivos mucho más coherentes y, sobre todo, persistentes y adaptativos. Como podemos ver, estos modelos no sólo prometen una IA que habla aún mejor, sino que también es capaz de comprender y anticipar.

Una gran promesa, pero sigue siendo una apuesta

Si todo esto abre nuevos horizontes sin duda conviene mantener la cabeza fría. Como suele ocurrir en la IA, los conceptos avanzan más rápido que las pruebas estabilizadas. Entre una arquitectura prometedora, una recaudación de fondos récord y productos confiables, todavía hay un mundo por superar donde los costos informáticos siguen siendo gigantescos y la necesidad de datos de calidad considerable. Pero esto es quizás lo que hace que este momento sea tan interesante porque no estamos presenciando tanto la desaparición del LLM de estas IA generativas como su relativización.

Si estos han hecho que la IA sea visible y familiar, también han abierto la puerta a una ambición mucho más amplia: dar forma al mundo. El futuro próximo dirá si el gato se deshizo del loro o si el pájaro locuaz habrá conservado todo su esplendor.

Referencia