dario-amodei-der-anthropic-chef-gilt-als-superhirn.jpg

El caso está ocupado en los tribunales.

Empresas americanas compran libros en Europa y los destruyen

25 de junio de 2026 – 17.42 hTiempo de lectura: 3 minutos

Ampliar la imagen

El jefe antrópico Dario Amodei: su empresa de inteligencia artificial adquiere enormes cantidades de libros. (Fuente: imágenes imago)

Millones de obras impresas viajan a los proveedores de servicios, donde son cortadas y escaneadas página por página. Al final, sólo queda un archivo y una nueva disputa por derechos de autor.

Los libros se consideran patrimonio cultural. Para las empresas de IA, ahora se trata principalmente de datos de capacitación valiosos. Para seguir desarrollando sus modelos lingüísticos, empresas como Anthropic están comprando millones de libros impresos. Las obras no se revenden ni se archivan posteriormente. En cambio, los proveedores de servicios cortan los lomos de los libros, digitalizan cada página individual con escáneres de alto rendimiento y luego eliminan las pilas de papel. reciclaje.

Los documentos judiciales de un litigio sobre derechos de autor contra la empresa estadounidense Anthropic muestran ahora cuán sistemático es este enfoque. Los documentos brindan una visión poco común de la carrera de la industria de la inteligencia artificial hacia datos de entrenamiento de alta calidad.

Por qué los libros son tan valiosos para el entrenamiento de IA

Los grandes modelos de lenguaje de Anthropic, AbiertoAIMeta o Google aprenden de grandes cantidades de texto. Cuanto mayor sea la calidad de los textos, mejor será la capacidad de los sistemas para comprender el lenguaje y formularlo por sí mismos.

  • Finalizan 101 años de historia: La aseguradora elimina el branding tradicional
  • Vence plazo importante: A partir de julio, algunos intercambios de criptomonedas corren el riesgo de cerrar

Precisamente por eso los libros juegan un papel especial. Si bien gran parte del contenido de Internet consiste en publicaciones breves, foros o comentarios, los libros ofrecen un lenguaje cuidadosamente seleccionado, cadenas de temas más largas y estructuras narrativas complejas.

Los documentos internos de Anthropic llegan al meollo de la cuestión: los libros pretenden enseñar a los modelos de IA a escribir bien, en lugar de simplemente imitar el lenguaje, a menudo insuficientemente cuidadoso, de muchos sitios web.

Compra en lugar de descargar

Al principio, las empresas de inteligencia artificial recurrían a menudo a las denominadas bibliotecas en la sombra, como LibGen. Hay millones de libros digitalizados que se distribuyen sin el consentimiento de los titulares de los derechos.

Pero fue esta práctica la que provocó una ola de demandas. Autores y editores acusan a varias empresas de inteligencia artificial de utilizar obras protegidas por derechos de autor para entrenar sus modelos sin permiso.

Al parecer, Anthropic decidió adoptar un enfoque diferente: en lugar de descargar copias digitales de fuentes cuestionables, la empresa compró libros impresos a gran escala y los digitalizó ella misma.

Porque los libros vienen de Europa.

Según documentos judiciales, Anthropic confió en Better World Books y los británicos utilizaron la librería World of Books para compras al por mayor. Estos minoristas tienen enormes inventarios de libros usados ​​y pueden entregar grandes cantidades a un precio relativamente bajo.

Para una empresa que quiere digitalizar cientos de miles o incluso millones de obras, esto es mucho más fácil que otorgar licencias de títulos individuales a editores o autores. La parte más sorprendente del proceso llega después de la compra.

Porque los libros se destruyen

Para digitalizar libros lo más rápido posible, sus páginas deben pasar individualmente por escáneres de alto rendimiento. Para ello, primero se corta limpiamente el lomo del libro. Sólo entonces se podrán grabar las páginas automáticamente.

Después del escaneo, las páginas de papel se reciclan. Por lo tanto, los libros existen sólo como copias digitales. Este es el método más eficaz para empresas que desean capturar millones de páginas en un corto período de tiempo.

Referencia

About The Author