El gran triturador: la IA que se comió los libros del mundo

9 min · verificado

Un documento interno de Anthropic lo dice sin pelos en la lengua: ‘Project Panama is our effort to destructively scan all the books in the world. We don’t want it to be known that we are working on this.’ No es ciencia ficción distópica: es un memo corporativo de 2024. Y el remate está cañón: primero robaron los libros, luego los trituraron, y al final pagaron 1,500 millones de dólares para que todo quedara en nada.

Hasta 7 millones de libros pirateados descargados por Anthropic de LibGen y Pirate Library Mirror — con daños potenciales de hasta 750,000 millones de dólares al máximo estatutario. La empresa pagó 1,500 millones: el 0.2% de eso.

Bradbury tenía razón, pero se equivocó de villano

En Fahrenheit 451, Ray Bradbury imaginó un futuro donde el Estado manda a los bomberos a quemar los libros uno por uno, con lanzallamas, para mantener al pueblo en la ignorancia.^[1] En 1984, Orwell construyó un aparato de vigilancia total donde el conocimiento se reescribe para que el poder nunca pierda.^[2] Ambos clavaron el dedo en algo real: que controlar la información es controlar a la gente. Lo que ninguno de los dos anticipó es que el destructor de libros no llegaría con uniforme ni con ideología totalitaria. Llegaría en sudadera, con valuación de 183 mil millones de dólares^[3] y un PowerPoint que promete ‘hacer el bien al mundo’.

La diferencia entre la distopía literaria y la Silicon Valley edition es que aquí no hay censura ni control del pensamiento: hay un modelo de negocio. Los libros no se destruyen para que nadie piense; se destruyen para que una máquina aprenda a escribir mejor que cualquier humano. El resultado final, eso sí, lo comparten con Bradbury y Orwell: los libros físicos dejan de existir. Las páginas se van a la recicladora. Y el conocimiento que contenían pasa a vivir —sin nombre, sin autor, sin crédito— dentro de un sistema de inteligencia artificial que cobra suscripción mensual.

‘Queremos escanear todos los libros del mundo’ — y que nadie lo sepa

A principios de 2024, los ejecutivos de Anthropic aceleraron un proyecto que buscaban mantener en absoluto secreto. El documento interno desclasificado en litigios legales lo describe sin rodeos: ‘Project Panama is our effort to destructively scan all the books in the world. We don’t want it to be known that we are working on this.’^[4]

La mecánica es digna de una planta industrial, no de una empresa que se vende como paladín de la IA segura y ética: compraban libros al mayoreo a vendedores de segunda mano como Better World Books y World of Books.^[5] Los ejemplares llegaban a una bodega donde una máquina de corte hidráulica separaba el lomo de cada volumen. Las páginas sueltas pasaban a escáneres de alta velocidad. Y una vez digitalizadas, los restos físicos se iban con empresas de reciclaje.^[6] Libro adentro, papel afuera.

La escala proyectada es lo que quita el aliento: una propuesta de negocio incluida en el expediente indica que la empresa buscaba digitalizar entre 500,000 y dos millones de libros en solo seis meses.^[7] En total, en aproximadamente un año, Anthropic gastó decenas de millones de dólares en este proceso.^[8] Para dirigirlo, contrataron a Tom Turvey, el exejecutivo de Google que dos décadas antes había liderado el controvertido —y también legalmente cuestionado— proyecto Google Books.^[9] Cuando necesitas a alguien para destruir libros en escala industrial, contratas al que ya sabe cómo hacerlo.

📬 ¿Te late este nivel de investigación?

La Autopsia llega primero por correo. Gratis, sin spam.

Primero a robar, luego a comprar: la doble vida de los datos de Anthropic

El Proyecto Panamá no fue el punto de partida, sino la segunda etapa de una historia que empieza con piratería pura y dura. Según los hallazgos judiciales, el cofundador Ben Mann descargó personalmente, en junio de 2021, al menos cinco millones de copias de libros desde Library Genesis (LibGen) usando BitTorrent —sabiendo que eran piratas.^[10] En julio de 2022, Anthropic volvió a hacerlo: al menos dos millones de copias más desde el Pirate Library Mirror.^[11]

Antes de eso, en enero de 2021, Mann ya había descargado 196,640 libros de Books3, también de origen no autorizado.^[12] El total estimado: hasta siete millones de libros pirateados.^[13]

Lo que hace esto especialmente sórdido es que nadie en Anthropic podía decir que no sabía. El propio equipo interno calificó a LibGen como ‘una violación flagrante del copyright’. El CEO Dario Amodei describió la biblioteca pirata como ‘sospechosa’ (‘sketchy’). Aun así, la directiva aprobó las descargas.^[14] El juez William Alsup lo dijo sin ambigüedad en su resolución: Anthropic ‘pudo haber comprado los libros, pero prefirió robarlos para evitar el proceso legal/práctico/de negocio’, citando las propias palabras de Amodei: ‘legal/practice/business slog.’^[15] Traducción al español sin eufemismos: era más fácil y más barato piratear que negociar.

El cheque de la impunidad: 1,500 millones para que no diga ‘culpable’

Los autores demandaron. El juez federal William Alsup emitió en junio de 2025 un fallo dividido: entrenar IA con libros obtenidos legalmente califica como ‘uso justo’ (fair use) bajo la ley estadounidense.^[16] Pero la piratería masiva —los siete millones de libros bajados de LibGen y afines— no tenía esa cobertura. Eso sí tenía que ir a juicio ante jurado.^[17]

Con el juicio programado para diciembre de 2025 y daños estatutarios de hasta 150,000 dólares por obra, los cálculos más conservadores ponían a Anthropic en riesgo de pagar entre 1,000 millones y potencialmente cientos de miles de millones de dólares —cifra que los propios abogados de la empresa calificaron de ‘ruinosa’.^[18] Un analista legal de Wolters Kluwer fue más directo: ‘Estábamos ante una fuerte posibilidad de múltiples miles de millones de dólares, suficientes para paralizar o incluso liquidar a Anthropic.’^[19]

La empresa negoció y en septiembre de 2025 anunció un acuerdo de 1,500 millones de dólares.^[20] Suena brutal hasta que ves la aritmética: son unos 3,000 dólares por libro —apenas el 2% del daño estatutario máximo permitido por ley.^[21] Y el remate final: Anthropic no tuvo que admitir culpa alguna.^[22] El precedente de ‘fair use’ para entrenar IA quedó intacto. La industria entera respiró aliviada. El destructor de libros corporativo pagó su cuota y siguió operando.

Anthropic no es la excepción: es el modelo a seguir

Lo más incómodo de este caso no es Anthropic en sí —es que Anthropic fue, paradójicamente, la empresa que más intentó hacer las cosas ‘bien’ al final. Meta, con bolsillos mucho más profundos, ni siquiera se molestó en comprar y triturar libros físicos: simplemente descargó LibGen de forma masiva desde laptops corporativas. Un ingeniero lo reconoció en un chat interno con un emoji de sonrisa: ‘Torrentear desde una laptop corporativa no se siente bien.’^[23] Otro empleado advirtió que si se filtraba, dañaría la posición de Meta ante reguladores.^[24] Y según reportes, el mismísimo Mark Zuckerberg aprobó el método.^[25]

OpenAI también descargó LibGen, aunque afirma haber borrado los archivos antes del lanzamiento de ChatGPT.^[26] El patrón es sistémico: toda la industria de la IA de frontera construyó sus modelos sobre libros que no pagó, de autores que no consultó, en países —como México y el resto de América Latina— donde los tribunales ni siquiera han comenzado a pronunciarse sobre estos casos.^[27] La literatura latinoamericana, incluida la de autores mexicanos, alimentó estos modelos sin que nadie les preguntara, sin que nadie les pagara, y sin que ninguna ley local los protegiera todavía. Lo que Bradbury llamó bomberos con lanzallamas, hoy tiene mejor marketing: se llama ‘entrenamiento de modelos fundacionales’.

⚖️ EL VEREDICTO

Aquí no hay bomberos con lanzallamas ni telepatías del Gran Hermano. Hay algo más mundano y más efectivo: una industria que identificó una laguna legal, la explotó hasta el límite, y cuando fue a juicio, compró su salida con un cheque. El fallo de ‘fair use’ para el entrenamiento de IA es el precedente que toda la industria necesitaba —y lo consiguió a través del caso de la empresa que primero robó siete millones de libros pirateados. La lección que queda no es tranquilizadora: el conocimiento acumulado por la humanidad —incluyendo a García Márquez, Rulfo, Paz— ya fue procesado, triturado o pirateado para alimentar sistemas que ahora compiten con los autores vivos que quedan. Y en México, como en toda América Latina, no hay un solo tribunal que haya dicho ni pío al respecto.

para reflexionar

Si el entrenamiento de IA con tus libros ya es ‘fair use’ en EUA y México no tiene un solo fallo al respecto, ¿quién protege a los autores mexicanos —y quién debería hacerlo?