Contaminación de datos digitales: cómo recuperar el control de la IA

REDACCION USA TODAY ESPAÑOL
6 Lectura mínima

Donde hay petróleo, normalmente hay contaminación. Este es también el caso de lo que el matemático Clive Hamby llamó el “nuevo petróleo”: los datos digitales.

El término inteligencia artificial (IA) actúa como un paraguas semántico que deliberadamente antropomorfiza las estadísticas para darles una falsa cualidad orgánica. No se trata de mentes digitales, sino de sistemas de probabilidad. Eso es matemática, no biología. Esta noción ambigua, en manos corporativas, diluye la responsabilidad, permitiendo a las empresas de tecnología apropiarse del trabajo y la información de otros bajo el pretexto de un progreso inevitable.

Al humanizar el software, olvidamos que los modelos de IA no aprenden ni crean. Simplemente exhiben una probable imitación de lo que ya hemos dicho. Además, como una fábrica de basura, estos sistemas, que operan sin ética ni curadores, comienzan a saturar su entorno con desechos digitales.

Esta fotografía real de flamencos en el desierto de Aruba (2024) obtuvo el tercer lugar y votación popular en la sección de IA de los premios 1849, y luego fue descalificada al descubrirse que no fue generada por inteligencia artificial. Millas descarriadas. Fotocopias de fotocopias.

El problema de tratar los datos como un recurso infinito es que ignoramos la contaminación, y no sólo en el ecosistema analógico. Los modelos generativos actuales inundan la web con spam sintético. Esto crea un ciclo de retroalimentación negativa: los nuevos modelos se entrenan con texto e imágenes generadas por modelos anteriores.

Es como hacer mil veces una fotocopia de una fotocopia. La señal original se pierde. Esto conduce a lo que se llama colapso del modelo. La maquinaria extractiva tiene fallas de diseño al priorizar la cantidad sobre la calidad y el contexto, destruye el recurso mismo que necesita para funcionar.

Movimiento neoludita

Ser ludita nunca fue odiar la tecnología, sino exigir que las máquinas no degradaran la calidad de vida de quienes las manejaban. Hoy, esa idea está resurgiendo no como una resistencia organizada, sino como una respuesta lógica a la automatización depredadora.

No debemos temer la supuesta ciencia ficción de una “superinteligencia” que nos domina. El verdadero peligro no es la conciencia de la máquina, sino la concentración de poder de quienes accionan el interruptor.

Ante esto, están surgiendo iniciativas como Nightshade o Glaze, que proponen una defensa técnica de los artistas contra el uso no autorizado de sus obras por modelos de IA generativa.

La idea consiste en aplicar técnicas de esteganografía (ocultar un mensaje dentro de otro) y ataques adversarios (entradas en un modelo que se modifica ligeramente deliberadamente y puede provocar que este modelo genere una salida incorrecta).

Esto permite que la imagen protegida sea idéntica al original para los ojos humanos. Sin embargo, a nivel de píxeles, implica perturbaciones numéricas que impiden su uso por parte de herramientas de inteligencia artificial. Estos cambios atacan directamente a la fase de entrenamiento donde el modelo de IA aprende del conjunto de datos. Modifican la forma en que la red neuronal extrae características de la imagen.

Al “envenenar” la matriz de aprendizaje, el modelo se ve obligado a realizar asociaciones erróneas (por ejemplo, asociar la imagen de un perro con el concepto de gato). Esta estrategia sabotea la confiabilidad estadística del sistema, demostrando que sin datos limpios y consistentes, la maquinaria se vuelve inútil.

¿Se puede formar éticamente un modelo?

La respuesta es sí. La ética no es un freno al progreso tecnológico, sino la única garantía de su sostenibilidad a largo plazo. Primero, debemos distinguir entre conceptos. “Open Weights” no es lo mismo que “Open Source”. Descargar una red neuronal entrenada es como regalar un pastel ya horneado, pero ocultando la receta y los ingredientes. Permite utilizar el modelo, pero impide auditarlo o saber si es seguro. La verdadera ética requiere total transparencia sobre el conjunto de datos que se utiliza: saber exactamente para qué está capacitado el sistema.

Esta no es una utopía teórica. Iniciativas como el modelo de lenguaje abierto Olmo han roto la opacidad de la industria al publicar todo el registro y el conjunto de datos de capacitación. Esto permite una trazabilidad real para auditar lo que está consumiendo el modelo.

Sin embargo, la transparencia es sólo el primer paso. El objetivo final es el consentimiento. Proyectos como The Stack demuestran que es posible entrenar modelos de lenguajes de programación respetando diligentemente la opción de exclusión voluntaria para los desarrolladores que optan por no utilizar su material para el entrenamiento de IA.

Asimismo, certificaciones como Fairly Trained empiezan a distinguir aquellos modelos que respetan los derechos de autor de aquellos que operan mediante la recolección indiscriminada.

El futuro de la IA apunta a modelos más pequeños y especializados, donde se priorice la calidad de los datos sobre la cantidad. Al final, no se trata de renunciar a la automatización, sino de elegir: herramientas transparentes basadas en el consenso o cajas negras basadas en el robo. El futuro será colaborativo, ético y humano, o no nos gustará estar en él.


Descubre más desde USA Today

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Comparte este artículo
Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESSpanish

Descubre más desde USA Today

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo