¿De dónde proviene el conocimiento de la inteligencia artificial (IA)? De una montaña de textos utilizados para entrenarlos. Normalmente encontramos grandes cantidades de artículos de Wikipedia, pero también muchos otros escritos, como la inmensa pila de libros de Books3, que agrega cerca de 200.000 obras sin la autorización de sus autores. Algunos defensores de los robots conversacionales presentan estos datos de entrenamiento como una “conocimiento universal” que trasciende los derechos de autor, Y añade que, protegidas o no, las IA no memorizan estos trabajos palabra por palabra y se contentan con almacenar sólo fragmentos de información.
Esta tesis se ve cuestionada por una serie de estudios, el más reciente de los cuales, publicado a principios de enero por investigadores de las universidades estadounidenses de Stanford y Yale, es edificante. Ahmed Ahmed y sus coautores lograron que cuatro programas tradicionales de inteligencia artificial recitaran páginas enteras de libros, aislados de Internet para asegurarse de que no derivaran nueva información de ellas.
“Harry Potter” y Marcel Proust
Según el estudio, Gemini 2.5 Pro fue capaz de reproducir el 77% del texto Harry Potter y la piedra filosofal por JK Rowling, obra protegida por derechos de autor. Para lograr este objetivo, los investigadores pidieron a Géminis que completara la primera frase del libro y luego continuara poco a poco.
Usando el mismo programa e instrucciones, el mundo logró reproducir el primer párrafo de Del lado de Swann, por Marcel Proust, así como obras inglesas que hayan pasado a ser de dominio público. Sin embargo, en el caso de las obras protegidas, la IA acordó proporcionar únicamente resúmenes durante nuestras pruebas.
Te queda el 67,99% de este artículo por leer. El resto está reservado para suscriptores.