IT and data

Principales riesgos del entrenamiento de Sistemas de Inteligencia Artificial con datos de fuentes abiertas

Publicado el 27th enero 2023

Los sistemas de Inteligencia Artificial (IA) a menudo emplean grandes conjuntos de datos para entrenar el modelo que luego realizará una tarea específica. Es habitual que estos conjuntos de datos de entrenamiento se construyan recopilando masivamente datos de fuentes abiertas en internet, incluyendo catálogos de publicaciones especializadas o de datos del sector público, sitios web, etc… En estos casos surge la necesidad de verificar el régimen jurídico aplicable a estos datos para identificar los potenciales riesgos de su uso.

Entre los principales riesgos asociados al entrenamiento de sistemas de IA (1) los asociados al uso de datos personales y (2) aquellos asociados a la propiedad de los datos son de especial relevancia.

Riesgos asociados al uso de datos personales

En la medida en que el conjunto de datos de entrenamiento contenga datos personales deberá cumplirse con toda la normativa de protección de datos. Esto incluye, entre otros, verificar los roles de las partes implicadas -responsables, corresponsables, encargados del tratamiento…-, las categorías de datos recopilados, la base jurídica de los tratamientos y/o la información que debe facilitarse a los interesados.

Las obligaciones de protección de datos son independientes del hecho de que el sistema de IA, una vez en funcionamiento, proporcione o no datos personales a los usuarios, o que los datos se hayan anonimizado tras recopilarlos. Por tanto, es necesario comprobar si se han tratado datos personales desde el mismo momento de captación de estos.

Destacamos también la obligación de informar a los interesados de que sus datos van a ser tratados, en el plazo máximo de un mes desde su recopilación. Cuando los datos personales no se hayan recabado directamente de los interesados, deberá informarse a estos sobre la fuente de la que se han extraído sus datos. La ausencia de información constituye una infracción de la normativa de datos personales.

Si informar a los interesados resulta imposible, supone un esfuerzo desproporcionado, hace imposible u obstaculiza gravemente el entrenamiento, excepcionalmente, no será aplicable la obligación de informar a los interesados. En tal caso deberá acreditarse esto y adoptar las medidas que mejor protejan los derechos de los interesados, incluyendo la publicación de avisos que faciliten el conocimiento por parte de los interesados.

Riesgos asociados a la propiedad de los datos

A menudo la preparación de un conjunto extenso de datos de entrenamiento implica necesariamente la automatización de la recogida o "minería" de estos. Uno de los principales riesgos asociados a esta recopilación automatizada es la infracción de los derechos de propiedad intelectual sobre aquellos datos que estén protegidos como obra o bases de datos bajo la normativa de propiedad intelectual.

En la actualidad la minería de textos y datos está permitida por la ley, siempre y cuando el titular de los derechos de propiedad intelectual no se haya reservado este derecho. La reserva de este derecho deberá hacerse a través de medios que permitan su detección tanto manual como automática, incluidos entre otros, el aviso en los metadatos o en los términos y condiciones de licencia o uso de los datos.

Cuestión particular es la minería de datos con fines de investigación científica, la cual la ley española parece en principio permitir su limitación por parte de los titulares de derechos de propiedad intelectual. No obstante, debe destacarse que la Directiva de la que trae causa esta disposición no acogería dicha limitación en casos de investigación científica. Esta posible divergencia ha sido señalada, entre otros, desde los ámbitos académicos y por el momento se desconoce si será modificada y alineada con la Directiva.

Por último, no debemos olvidar la posibilidad de que los titulares de los datos establezcan condiciones de reutilización sobre los estos, incluyendo, entre otras, la solicitud de autorizaciones, el pago de importes o prohibiciones de uso para ciertas finalidades. Esto es de especial relevancia en los catálogos de datos del sector público, con la reciente aprobación del Reglamento Europeo de Gobernanza de Datos, que se suma a la normativa nacional existente sobre reutilización de datos.

Conclusiones finales

Con un mercado cada vez más preparado para integrar los sistemas de IA en todo tipo de aplicaciones comerciales, y con la reciente creación de la agencia de IA española, es previsible que aumente la exigencia regulatoria sobre todo el ciclo de vida de los sistemas de IA.

Será fundamental verificar que aquellos sistemas que requieran de conjuntos de datos para su entrenamiento disponen de los permisos adecuados para su recopilación y procesamiento, así como respetan lo dispuesto en la normativa de protección de datos.

 

Seguir

* This article is current as of the date of its publication and does not necessarily reflect the present state of the law or relevant regulation.

Interested in hearing more from Osborne Clarke?