Todo el texto generado por ChatGPT podría considerarse una obra derivada según la Ley de Propiedad Intelectual, que protege los derechos de autor de la obra original.
El modelo de inteligencia artificial conversacional ChatGPT fue entrenado con una amplia variedad de datos recopilados de internet, incluyendo artículos, libros, publicaciones en redes sociales y estudios académicos.
A pesar de que la procedencia de los datos no fue considerada, lo cierto es que gran parte de ellos probablemente están protegidos por derechos de autor. La pregunta que surge es si OpenAI y ChatGPT violan los derechos de autor al utilizar estos textos en su entrenamiento.
No hay información disponible acerca de si durante el entrenamiento de ChatGPT se copiaron los textos utilizados o simplemente se referenciaron.
La respuesta de ChatGPT es que se utilizó texto de diversas fuentes y que es probable que se copiara en una base de datos interna de OpenAI con el fin de entrenar el modelo.
Es legal o no
Sin embargo, se suele preprocesar el texto para eliminar cualquier información sensible, como identificadores personales, texto protegido por derechos de autor, etc. Además, el texto se utiliza para entrenar el modelo y no se almacena en una base de datos. Una vez finalizado el entrenamiento, el modelo ya no necesita el texto.
A pesar de lo que indica ChatGPT, es poco probable que se eliminara el texto protegido por derechos de autor, ya que la mayoría de su conjunto de entrenamiento es de este tipo de contenido.
Todo el texto generado por ChatGPT podría considerarse una obra derivada según la Ley de Propiedad Intelectual, que protege los derechos de autor de la obra original.
En cuanto al uso justo o legítimo (fair use) de ChatGPT, incluso suponiendo que se haya copiado texto durante su entrenamiento y que el texto generado sea una obra derivada, podría considerarse que se hace un uso legítimo de los contenidos.
El modelo mezcla contenidos de todo tipo de obras, lo que no parece constituir un uso injustificado. Sin embargo, podría haber casos en los que se infrinjan los derechos de autor si, por ejemplo, se le pidiera a un motor basado en ChatGPT que escribiera la próxima novela de Harry Potter como si fuera J.K. Rowling, y el objetivo fuera comercial.
OpenAI ha sido demandada por violar la ley de derechos de autor en productos como GitHub Copilot, Stable Diffusion y Midjourney, que fueron entrenados con copias no autorizadas de código o imágenes.
El sistema en el que se basa GitHub Copilot es Codex, que fue entrenado con decenas de millones de repositorios públicos, incluyendo código de GitHub. Algunos de estos repositorios requieren atribución cuando se utiliza el código de los mismos, lo que ha generado críticas por parte de la comunidad open source.
El problema afecta también a DALL-E 2, que funciona con imágenes de creadores que no reciben nada a cambio. La atribución puede ser una solución, como demuestra Bing con ChatGPT, que ofrece referencias de las fuentes en las que se basa al contestar preguntas.
Algunos medios de comunicación, como The Wall Street Journal o la CNN, han exigido que OpenAI licencie los derechos de autor para hacer un uso adecuado de los contenidos de sus publicaciones que ChatGPT utiliza durante su entrenamiento.

















