Robo de fotos de niños para entrenar inteligencias artificiales: El peligro de que tu hijo esté en algún repositorio

Una investigación de la ONG Humans Rights Watch (HRW) ha revelado que se están utilizando fotos de niños brasileños y australianos, sin autorización previa de sus padres, para entrenar herramientas de inteligencia artificial (IA). El caso ha generado preocupación sobre la privacidad y seguridad de los menores en línea. No obstante, no se trata de un problema solo de estos países, sino que estamos ante algo global.

En específico, la investigación encontró que el repositorio de imágenes LAION-5B, utilizado por desarrolladores para entrenar IA, contiene enlaces a fotos identificables de niños brasileños y australianos.

¿Qué información aportan las fotos?

La ONG denunció que los nombres de algunos niños incluso figuraban en el pie de foto o en la URL de la imagen, incluida la información sobre cuándo y dónde se encontraba el niño en el momento en que se tomó la foto, lo que facilitaba su identificación.

Específicamente en uno de los casos, la fotografía muestra a dos niños, de tres y cuatro años, sonriendo de oreja a oreja mientras sostienen pinceles frente a un mural colorido. El pie de foto que acompaña revela los nombres completos y las edades de ambos niños, y el nombre de la escuela preescolar a la que asisten en Perth, en Australia Occidental. La información sobre estos niños no parece existir en ningún otro lugar de Internet.

Además de esta foto, en el caso de los menores australianos, Human Rights Watch identificó otras 189 fotos de niños de todos los estados y territorios del país. A estas debemos sumar las fotos identificadas de niños brasileños.

Según los investigadores, es probable que se trate de un recuento significativamente inferior a la cantidad de datos personales de los niños en LAION-5B, ya que Human Rights Watch revisó menos del 0,0001% de los 5.850 millones de imágenes y pies de foto que contiene el conjunto de datos.

¿De qué tipo de fotos estamos hablando?

Las fotos que Human Rights Watch revisó abarcan la totalidad de la infancia. Capturan momentos íntimos de bebés que nacen en las manos enguantadas de los médicos y aún están conectados a su madre a través de su cordón umbilical; niños pequeños haciendo burbujas o tocando instrumentos en preescolares; niños vestidos como sus personajes favoritos para la Semana del Libro; y niñas en traje de baño en el carnaval de natación de su escuela.

Las fotos también capturan a niños de pueblos originarios, incluidos aquellos identificados en los epígrafes como pertenecientes a los pueblos Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi y Warlpiri. Estas incluyen a pequeños bailando una canción en su lengua indígena; una niña que sostiene orgullosamente un lagarto de arena goanna por la cola; y tres niños pequeños con pintura corporal tradicional y abrazándose, por mencionar algunos de los casos.

¿De dónde robaron las fotografías?

Algunas fotos fueron publicadas por niños o sus familias en blogs personales y sitios para compartir fotos y videos. Otras fotos fueron subidas por escuelas o por fotógrafos contratados por familias para capturar momentos personales y retratos. Algunas de estas fotos no son posibles de encontrar en las versiones de acceso público de estos sitios web, e incluso algunas fueron subidas años o incluso una década antes de que se creara LAION-5B.

¿Cuál es el problema?

LAION-5B es creado mediante “el raspado” de la mayor parte de Internet. Más allá de la vulneración de derechos, las fotos se extraen de la web y se incorporan a un gran conjunto de datos que las empresas utilizan para entrenar sus herramientas de IA. A su vez, otros utilizan estas herramientas para crear deepfakes maliciosos que ponen a más niños en riesgo de explotación y daño.

“Los niños no deberían tener que vivir con el temor de que sus fotos puedan ser robadas y utilizadas como arma en su contra”, dijo Hye Jung Han, investigadora y defensora de los derechos y la tecnología de los niños en Human Rights Watch.

Human Rights Watch descubrió que LAION-5B también contenía fotos de fuentes que habían tomado medidas para proteger la privacidad de los niños. Una de esas fotos es un primer plano de dos niños haciendo muecas, capturado de un video publicado en YouTube de adolescentes celebrando la semana de Schoolies después de sus exámenes finales. El creador del video tomó precauciones para proteger la privacidad de las personas que aparecen en el video: su configuración de privacidad está configurada en “no listado” y el video no aparece en los resultados de búsqueda de YouTube.

Recordemos que los términos de servicio de YouTube prohíben “raspar” o recolectar información que pueda identificar a una persona, incluidas imágenes de sus rostros, excepto en ciertas circunstancias; por ende, este caso parece violar estas políticas.

¿A qué otros peligros se enfrentan los niños?

Una vez que sus datos son recopilados y alimentados a los sistemas de IA, estos niños enfrentan más amenazas a su privacidad debido a fallas en la tecnología. Los modelos de IA, incluidos los entrenados en LAION-5B, son conocidos por filtrar información privada.

Pocos los saben, pero los modelos de IA pueden reproducir copias idénticas del material con el que fueron entrenados, incluidos registros médicos y fotos de personas reales. Además, los modelos de IA actuales no pueden “olvidar” los datos con los que fueron entrenados, incluso si los datos se eliminaron más tarde del conjunto de datos de entrenamiento.

Desde Human Rights Watch afirman que estos riesgos de privacidad allanan el camino para mayores daños. A modo de ejemplo, el entrenamiento con fotos de niños reales permite a los modelos de IA crear clones convincentes de cualquier niño, basándose en un puñado de fotos o incluso en un conjunto de datos de entrenamiento.