Fundación neerlandesa logra retirar y proteger datos destinados a entrenar modelos de IA

Este artículo tiene 1 año de antigüedad
/pf/resources/images/abc-placeholder.png?d=2393

La Haya, 13 ago (EFE).- La fundación neerlandesa de derechos de autor Brein ha conseguido retirar y proteger un paquete de datos “enorme”, que contenía copias ilegales de decenas de miles de libros y de subtítulos de películas y series, que estaba destinado a entrenar modelos de inteligencia artificial (IA), un paso que previene que terceros extraigan masivamente material protegido.

En un comunicado, Brein explicó que “después de recibir una denuncia”, descubrió un “gran conjunto de datos en neerlandés” que estaba compuesto por copias ilegales de decenas de miles de libros, millones de artículos de noticias de páginas web, y subtítulos de “innumerables” películas y series de televisión obtenidos de “fuentes ilegales” y que se utilizaban para entrenar modelos de inteligencia artificial.

“El enorme conjunto de datos estaba comprimido para que pudiera ser usado fácilmente por modelos de computadora de IA, como los grandes modelos de lenguaje (LLMs). Aunque el conjunto de datos no estaba diseñado directamente para que los consumidores lo leyeran como un libro electrónico o web de noticias, esto no está permitido. Copiar y extraer datos de fuentes ilegales nunca está permitido”, advirtió.

El director de la fundación, Bastiaan van Ramshorst, explicó que, durante la investigación, se buscó en el conjunto de datos, entre otras cosas, el texto literal “Nada de esta publicación puede ser reproducido", y esto arrojó, aseguró, más de 10.000 resultados.

“Cada uno de ellos se refería a libros copiados ilegalmente. Los artículos de noticias también fueron copiados de sitios web con reservas de derechos de autor. Esto demuestra claramente que los derechos de autor no han sido respetados, lo que se llama acto flagrante", lamentó Van Ramshorst.

Todos los beneficios, en un solo lugar Descubrí donde te conviene comprar hoy

El paquete de datos ya ha sido retirado y el creador del archivo comprimido ha sido identificado y “ha firmado una declaración en la que promete no infringir más” las leyes de protección de derechos de autor.

También ha proporcionado información sobre a quién ha entregado el conjunto de datos en cuestión, para que Brein pueda investigar qué modelos de IA han usado ya estos datos y se ponga en contacto con las partes involucradas.

Es la primera vez que una fundación en Países Bajos logra retirar datos protegidos y salvaguardarlos de la inteligencia artificial.