Penguin Random House rechaza expresamente que usen sus libros para entrenar la inteligencia artificial

El grupo editorial más grande del mundo, Penguin Random House (PRH), estableció que a partir de ahora en todos los libros que se publiquen, incluidas las reimpresiones, debe figurar una leyenda donde se prohíbe expresamente el uso de los contenidos por parte de las empresas de inteligencia artificial (IA) para “entrenar” grandes modelos de lenguaje (LLM), como el famoso CHatGPT. El megagrupo cambió la redacción en las páginas de derechos de autor para ayudar a proteger la propiedad intelectual de los autores y evitar que los libros -el principal “combustible” de las empresas de IA- se usen para los modelos de lenguaje y otras herramientas de IA. La información fue difundida por la revista británica The Bookseller.

En todos los libros de todos los sellos editoriales de PRH en el mundo (que no son pocos) deberá imprimirse la leyenda: “Ninguna parte de este libro puede usarse o reproducirse de ninguna manera con el propósito de entrenar tecnologías o sistemas de inteligencia artificial”. Aparecerá en las novedades así como también en cualquier título de los catálogos que se reimprima. La declaración también “reserva expresamente [los títulos] de la excepción de minería de textos y datos”, de conformidad con una directiva del Parlamento Europeo.

La declaración de derechos de autor de PRH en su totalidad dice: “Penguin Random House valora y apoya los derechos de autor. Los derechos de autor alimentan la creatividad, alientan la diversidad de voces, promueven la libertad de expresión y apoyan una cultura vibrante. Gracias por comprar una edición autorizada de este libro y por respetar las leyes de propiedad intelectual al no reproducir, escanear ni distribuir ninguna parte del mismo por ningún medio sin permiso. Estás apoyando a los autores y permitiendo que Penguin Random House continúe publicando libros para todos. Ninguna parte de este libro puede usarse o reproducirse de ninguna manera con el propósito de entrenar tecnologías o sistemas de inteligencia artificial. De conformidad con el artículo 4(3) de la Directiva 2019/790 sobre el Mercado Único Digital, Penguin Random House reserva expresamente esta obra de la excepción de minería de textos y datos”.

La prohibición específica del uso de los libros de PRH para el desarrollo de chatbots y otras herramientas digitales se produce en medio de una serie de casos de infracción de derechos de autor en Estados Unidos y de informes de que las empresas tecnológicas ya han utilizado grandes cantidades de libros pirateados para entrenar herramientas de IA.

El director ejecutivo de PRH del Reino Unido, Tom Weldon, anticipó en agosto que la empresa “defenderá enérgicamente la propiedad intelectual que pertenece a nuestros autores y artistas”, aunque agregó que también “innovará de manera responsable” y “utilizará herramientas de IA generativa de manera selectiva y responsable, donde veamos un caso claro de que pueden promover nuestros objetivos”.

La iniciativa de PRH contó con el beneplácito de sociedades de derechos de autor y de escritores. La directora ejecutiva de la Sociedad de Autores del Reino Unido, Anna Ganley, dijo que también debía modificarse la redacción de los contratos con los autores. “No existe una redacción estándar de ‘Todos los derechos reservados’ e incluso el aviso más básico cubre todos los usos -indicó-. Dicho esto, nos complace ver que los editores comienzan a agregar al aviso ‘Todos los derechos reservados’ para excluir explícitamente el uso de una obra con el propósito de entrenar [IA generativa], ya que proporciona una mayor claridad y ayuda a explicar a los lectores lo que no se puede hacer sin el consentimiento del titular de los derechos”.

Y agregó: “Ahora esperamos ver cambios también en los contratos de publicación y que se agreguen las advertencias adecuadas, ya que creemos que es igualmente importante que los editores garanticen a los creadores que se buscará su consentimiento antes de que el editor use, o permita el uso, de IA generativa en asociación con la producción de la obra, por ejemplo, con fines de narración, traducción, imágenes, diseño de portada, y antes de que el editor otorgue cualquier acceso o uso de la obra por parte de un sistema de IA”. Anunció que la entidad seguirá presionando “por un marco legal que respete las soluciones de mercado existentes y en desarrollo para las tecnologías de IA, es decir, una concesión de licencias adecuada y transparente que garantice que los creadores y los titulares de derechos reciban un pago por el uso de sus obras”.

“Es alentador ver a todas las industrias creativas unidas en la defensa de este principio fundamental de nuestra economía creativa”, concluyó Ganley.

En diálogo con LA NACION, el director de Proyecto451, Daniel Benchimol, dijo que en el mundo editorial había “mucho temor e incertidumbre” ante el avance de la IA generativa. “Hoy, este asunto es uno de los más críticos en lo que hace al impacto de la IA en el mundo del libro, porque es una industria cuyo negocio está basado en la propiedad intelectual -explica-. Los grandes modelos de lenguaje, como ChatGPT y otros, han sido entrenados con libros con propiedad intelectual para desarrollar el producto. Cuando lo hicieron, muchas de estas empresas no eran comerciales, sino que estaban en la línea de organismos de investigación, y tenían posibilidades de hacerlo. Pero lo que hubo fue una violación a las leyes de propiedad intelectual vigentes, con el agregado de que los libros son los que mayor valor le aportan a los LLM, en cuanto a calidad del texto y verificación de conocimientos”.

“Es más relevante para el modelo haber sido entrenado con un libro que con un blog o una red social. Hay un valor intrínseco en los libros”, destaca Benchimol.

Y agrega: “El negocio del libro está sostenido por la propiedad intelectual. Es el eje fundamental que sostiene la industria: la comercialización de propiedad intelectual bajo distintas formas. La IA golpea de lleno en eso y afecta los contratos que las editoriales tienen con múltiples agentes. Además, hay un acuerdo de ‘no agrado’ para que los contenidos editoriales sean entrenados por IA, y cierta expectativa de ver cómo se va resolviendo esto en términos globales, pero sin duda la ley de propiedad intelectual debería modificarse. Para las plataformas de IA, los libros son un insumo indispensable y necesitan no destruir a la industria del libro. Hay que encontrar un ecosistema sostenible. Hay caminos que se están explorando”.

No obstante, Benchimol señala que desde noviembre de 2022, con el lanzamiento de CHatGPT, no existen grandes juicios de editoriales a empresas tecnológicas. “Muchas grandes editoriales, igual que los grandes diarios, han firmado acuerdos comerciales con las empresas, en un intercambio en que las editoriales ceden sus contenidos para entrenamiento a cambio de acceso a la tecnología. Es curioso que la mayoría de los grandes grupos editoriales, a diferencia de escritores, profesionales y artistas, no haya iniciado acciones judiciales”, observa.

Por último, cabe recordar que muchas de las plataformas de IA han publicado guías sobre cómo los usuarios pueden “optar por no permitir” que su contenido sea utilizado para capacitación en IA, y estas guías están disponibles en internet.

Conforme a los criterios de

Penguin Random House rechaza expresamente que usen sus libros para entrenar la inteligencia artificial

Hay un vínculo fundante entre las personas y el arte

La infraestructura y su rol crucial en la planificación urbana

Lancia recupera las míticas siglas HF con el Ypsilon eléctrico Acierto o error?

Segunda oportunidad para la Selectividad en Córdoba

OpenAI lanza una suscripción mensual de US$200 para ChatGPT Pro