Adobe afronta una demanda colectiva en Estados Unidos por el presunto uso de libros protegidos por derechos de autor en el entrenamiento de uno de sus modelos de inteligencia artificial. La acción judicial, presentada en nombre de la autora Elizabeth Lyon, cuestiona cómo la compañía desarrolló SlimLM, un conjunto de modelos orientados a la asistencia documental en dispositivos móviles.
Según la demanda, Adobe habría utilizado versiones no autorizadas de numerosas obras protegidas, incluidos varios libros escritos por la propia Lyon. La acusación pone el foco en el origen de los datos empleados para entrenar el modelo, un aspecto cada vez más sensible en la industria de la IA.
Adobe sostiene que SlimLM fue preentrenado con SlimPajama-627B, un conjunto de datos de código abierto publicado por Cerebras en junio de 2023. Este dataset se presenta como multicorpus y deduplicado, una etiqueta habitual para describir grandes colecciones de texto utilizadas en modelos de lenguaje.
El problema, según el escrito judicial citado por Reuters, es la procedencia real de ese material. La demanda afirma que SlimPajama deriva de RedPajama y que este, a su vez, incorpora el repositorio Books3. En palabras del texto legal, SlimPajama se habría creado “copiando y manipulando” RedPajama, incluida la reutilización de Books3, una base de datos formada por unas 191.000 obras sin licencia expresa de sus autores.
Books3 se ha convertido en un nombre recurrente en los tribunales. En los últimos años ha aparecido en demandas contra varias tecnológicas por su uso en el entrenamiento de sistemas de IA generativa. En septiembre, Apple fue acusada de emplearlo para desarrollar Apple Intelligence. Un mes después, Salesforce recibió una demanda similar por el mismo motivo.
El caso de Adobe se suma así a una cadena de litigios que está marcando el ritmo del sector. Las empresas defienden que entrenar modelos con grandes volúmenes de texto es una práctica extendida, mientras que autores y editores cuestionan que se haga sin consentimiento ni compensación. El choque ya no es teórico: se está resolviendo en los juzgados.
El precedente más relevante llegó en septiembre, cuando Anthropic cerró un acuerdo de 1.500 millones de dólares con varios autores que la acusaban de usar copias pirateadas para entrenar su chatbot Claude. Aquel pacto reforzó la idea de que estas demandas pueden tener un impacto económico real y acelerar cambios en cómo se recopilan los datos.
La demanda contra Adobe reabre una pregunta incómoda para toda la industria. ¿Hasta dónde llega la responsabilidad de una empresa cuando entrena modelos con datos “abiertos” cuyo origen es discutible? La respuesta no solo afecta a Adobe, sino al futuro mismo de la inteligencia artificial generativa.
