Derechos de autor e IA: The New York Times contra OpenAI

Derechos de autor e IA: The New York Times contra OpenAI

El pasado 27 de diciembre de 2023 The New York Times presentó una demanda contra el grupo de empresas que conforman OpenAI (OpenAI, INC; OpenAI, LP; OpenAI GP, LLC; OpenAI, LLC; OAI Corporation, LLC; OpenAI Holdings, LLC) y Microsoft Corporation.  

El periódico neoyorquino comienza defendiendo la importancia del periodismo de investigación, la calidad de los profesionales que lo hacen posible, y los altos estándares de exigencia y calidad a los que se someten tanto periodistas, como editores o analistas de datos. Trabajo que está en riesgo viendo los desafíos a los que se enfrenta hoy el mundo del periodismo, entre ellos, defender su propiedad intelectual frente a terceros que quieran hacer uso de su contenido. 

En este sentido, The New York Times (TNYT o The Times) acusa a OpenAI y sus herramientas de inteligencia artificial generativa (GenAI) -basados en modelos de lenguaje de gran escala (LLM)- de copiar y usar millones de sus artículos protegidos por derechos de autor, aprovechándose indebidamente de los esfuerzos periodísticos realizados y enriqueciéndose así de forma injusta.  

Las partes del proceso 

La demanda se dirige contra el conjunto de empresas que conforman OpenAI, pero también contra Microsoft, que según dispone TNYT en su demanda, ha estado íntimamente implicada en el entrenamiento, desarrollo y comercialización de los productos de GPT Open AI. Fue Microsoft la encargada de desarrollar la infraestructura informática necesaria para entrenar los modelos de lenguaje de gran escala (LLM), en colaboración y de forma exclusiva para OpenAI. No solo eso, sino que Microsoft incorporó la tecnología de OpenAI GPT en sus productos, como el Buscador y el Chatbot de Bing, que respondían a las consultas de los usuarios generando resúmenes de los artículos de TNYT de manera artificial, llegando a incluir para ello citas y paráfrasis de artículos, pero sin remitir a los usuarios a los artículos correspondiente.  

Finalmente, en la medida en que Microsoft actuaba como colaborador de OpenAI, debía saber o podía llegar a saber que las bases de datos (como Common Crawl, WebText, y Webtext2), que alimentaban y entrenaban los modelos de lenguaje, contenían artículos protegidos por derechos de autor de TNYT, y podía evitar que OpenAI los usara. 

Las pretensiones esbozadas 

The Times alega fundamentalmente el uso sin autorización y de forma ilícita de numerosos contenidos y artículos para el entrenamiento de los LLM. Estos funcionan mediante la predicción de palabras basada en toda la información y datos con los que han sido nutridos, en este caso extensos contenidos protegidos de TNYT. Este entrenamiento se traduce en que, a preguntas de los usuarios sobre un tema, los modelos son capaces de reproducir párrafos literales de los artículos con los que se han nutrido, como se ejemplifica en la demanda. Lo mismo ocurre, causando un mayor perjuicio al demandante, en los casos en que los sistemas de búsqueda sintéticos (como son el Chat de Bing y el Buscador de Bing) llegan a reproducir párrafos de artículos de pago. Además, también consiguen entrelazar párrafos de un mismo artículo a fin de dar una respuesta más sintética y hacer la respuesta más atractiva para el usuario. En algunos casos, el contenido de las respuestas sintetizadas es tan completo en comparación con los fragmentos que suelen arrojar los resultados de búsqueda ordinarios, que el hecho de que incluyan enlaces a los materiales fuente resulta inútil, pues los usuarios tienen menos necesidad de navegar hasta ellas y por tanto el tráfico a su web disminuye. Es más, añade The Times, esta indicación de origen puede hacer que los usuarios confíen más en el resumen y no hagan clic para comprobarlo. 

En segundo lugar, se alega el daño sufrido concretamente para Wirecutter, su sección dedicada a la recomendación de productos a consumidores que contiene los hipervínculos a su compra. Cuando el consumidor finaliza la transacción a través de este proceso, Wirecutter obtiene una especie de compensación. Su éxito es fruto de la buena calidad del servicio, habiendo conseguido crear una confianza y fidelidad en los usuarios que se ha visto desmontada por las respuestas de los modelos LLM. Y es que cuando se les solicita información sobre las recomendaciones de TNYT sobre un producto concreto, llega a reproducir literalmente los resultados, pero sin poner los enlaces a Wirecutter ni a la transacción, por lo que la remuneración que obtenía Wirecutter no se llega a efectuar. Además, sucede otro fenómeno llamado “alucinación”, que consiste en la invención de información cuando el sistema no sabe qué responder. En este sentido, se obtienen respuestas que no han sido dadas por The Times y, por tanto, falsamente atribuidas a este, creando la convicción en el consumidor de que sí proceden de fuente oficial. 

Finalmente, TNYT señala en la demanda la supresión de todos los avisos de derechos de autor y términos y condiciones por parte de Microsoft y OpenAI, de forma que las respuestas obtenidas por los usuarios no muestran señal alguna de ser contenidos protegidos. En este sentido, se comete la infracción por parte de los demandados, pero también la facilita por parte de los usuarios. 

Todo lo anterior, advierte The Times, puede constituir una situación de competencia desleal, ya que las necesidades de los usuarios se ven satisfechas mediante la apropiación indebida de los contenidos protegidos. Los usuarios obtienen la información requerida de una forma más sintética, sin pagar suscripción y, aparentemente, con la misma fiabilidad que la de TNYT.  

Como última alegación, señalan el daño a la marca registrada de The New York Times. Siendo esta de carácter notorio, tanto su uso sin autorización como la atribución de contenidos falsos y de peor calidad y precisión, suponen un perjuicio económico y un deterioro a la reputación de la marca.  

Finalmente, se solicitan las pretensiones de (i) indemnización por todos los daños efectivos, también por los beneficios obtenidos por los demandados a costa de la apropiación indebida de los contenidos y el lucro cesante; (ii) la prohibición de las conductas ilícitas alegadas; (iii) y la destrucción de modelos y datos de entrenamiento que contengan información y contenidos protegidos por derechos de autor de titularidad del New York Times. 

La respuesta de OpenAI 

El pasado 8 de enero, OpenAI emitió un comunicado en relación con la demanda, afirmando, en primer lugar, que el entrenamiento de modelos de IA utilizando materiales de Internet disponibles públicamente está amparado por el fair use. A pesar de ello, ofrece la posibilidad a quienes publican dichos contenidos de acogerse a lo que denomina un “proceso de exclusión voluntaria”, que impide que las herramientas de rastreo de OpenAI accedan a las páginas web de aquellos.  

Continúa señalando que la “regurgitación”, término empleado para describir un contenido generado por inteligencia artificial que ha sido plagiado palabra por palabra del contenido original, es un fallo poco frecuente en el proceso de aprendizaje de los sistemas como ChatGPT. Aun así, reconocen que estos fallos se explican cuando un contenido concreto aparece más de una vez en los datos de entrenamiento, por ejemplo, si aparecen fragmentos del mismo contenido en muchos sitios web públicos diferentes. Por ello, OpenAI está tomando medidas para limitar la memorización involuntaria y evitar la regurgitación en los resultados de los modelos, sin por ello dejar de pedir a los usuarios que realicen un uso responsable de los modelos de lenguaje. El comunicado completo de OpenAI puede consultarse aquí.

A la espera de pronunciamiento 

Seguiremos de cerca la disputa y el pronunciamiento de los tribunales de Manhattan, pues se trata de una oportunidad para que la justicia americana se pronuncie acerca de si esta utilización de contenidos para entrenar sistemas de inteligencia artificial constituye o no un fair use de esos contenidos. Esta será sin duda una decisión que trascienda al ámbito periodístico y afecte a otros sectores de aplicación de la IA.  

 

Texto: Lucía Cureses

Somos un sólido equipo de abogados, con un alto perfil profesional y profundamente comprometidos con la sociedad y con nuestros clientes