La IA no “ve” como tú, y eso podría ser un problema a la hora de categorizar objetos y escenas.

REDACCION USA TODAY ESPAÑOL
9 Lectura mínima

Incluso sin el pelaje en el marco, puedes ver fácilmente que una foto de un gato Sphynx sin pelo es un gato. No lo confundirías con un elefante.

Pero muchos sistemas de visión de IA sí lo harían. ¿Por qué? Porque cuando los sistemas de IA aprenden a categorizar objetos, a menudo se basan en señales visuales, como la textura de la superficie o patrones simples de píxeles. Esta tendencia los hace vulnerables a ser confundidos por pequeños cambios que tienen poco efecto en la percepción humana.

Un sistema de visión más cercano a la percepción humana (uno que tal vez enfatice la forma, por ejemplo) aún puede confundir a un gato con otro mamífero de forma similar, como un tigre; pero es poco probable que indique un elefante.

Los tipos de errores que comete la IA revelan cómo organiza la información visual, con limitaciones potenciales que se vuelven preocupantes en entornos de mayor riesgo.

Las pegatinas y graffitis en una señal de alto pueden servir como un ataque hostil, confundiendo a la IA en los vehículos autónomos. rick/Flickr, CC POR

Imagine un vehículo autónomo acercándose a una señal de alto destrozada. Mientras que un conductor humano reconoce una señal en función de su forma y contexto, la IA que se basa en patrones de píxeles puede clasificarla erróneamente, relegando la señal alterada de la categoría de “señal” por completo a otro grupo de imágenes que identifica como similares, como una valla publicitaria, un anuncio u otro objeto al borde de la carretera.

En conjunto, estos problemas apuntan a un desajuste entre cómo los humanos perciben el mundo visual y cómo lo representa la IA.

Somos expertos en percepción visual y trabajamos en la intersección de la percepción humana y mecánica. Los seres humanos organizan la información visual en objetos, significados y relaciones determinadas por la experiencia y el contexto. Los modelos de IA no organizan la información visual de la misma forma. Esta diferencia clave explica por qué la IA a veces falla de manera sorprendente.

Ver objetos, no características

Imagina que frente a ti hay un objeto pequeño y opaco con bordes rectos y curvos. Pero no ves esas características; Acabas de ver tu taza de café.

La visión no es una cámara que registra pasivamente el mundo. En cambio, su cerebro convierte rápidamente la luz que absorben sus ojos en objetos que reconoce y comprende, organizando la experiencia en representaciones mentales estructuradas.

Los investigadores pueden comprender cómo se estructuran estas representaciones examinando cómo las personas juzgan las similitudes. Tu taza de café no es como tu computadora, pero es similar a un vaso de agua a pesar de las diferencias en apariencia. Ese juicio refleja cómo se representa mentalmente la taza: no sólo en términos de apariencia, sino también en términos de para qué se utiliza la taza y cómo encaja en las actividades cotidianas.

un vaso de agua transparente junto a una taza de cerámica blanca en un platillo sobre la mesa

Son muy similares en cómo los usas; menos similar en apariencia. Oscar Wong/Momento vía Getty Images

Es importante que la organización mental de las representaciones sea flexible. Los aspectos de un objeto que se destacan cambian según el contexto y los objetivos. Si vas a empacar una caja de mudanza, la forma y el tamaño son lo más importante, por lo que tu taza se puede colocar donde quepa. Pero cuando lo guardas en el armario, va justo al lado de los demás vasos. La copa no ha cambiado, sólo la forma en que está organizada en tu mente.

La percepción visual humana es adaptativa, impulsada por el significado y ligada a la forma en que interactuamos con el mundo.

Alinear la IA con los humanos

Sin embargo, los sistemas de inteligencia artificial organizan la información visual de maneras fundamentalmente diferentes a las de los humanos: no porque sean máquinas, sino por lo estrechamente entrenados que están. Cuando se entrena a una IA para categorizar un gato o un elefante, sólo necesita aprender qué patrones visuales conducen a la etiqueta correcta, no cómo se relacionan los animales entre sí o cómo encajan en el mundo más amplio.

Por el contrario, las personas aprenden en un contexto más amplio. Cuando aprendemos qué es un elefante, entrelazamos esa representación en el tapiz de todo lo demás que hemos aprendido: animales, tamaño, hábitats y más. Dado que la IA se juzga únicamente por la precisión de las etiquetas, puede depender de atajos que funcionan en el entrenamiento pero que a veces fallan en el mundo real.

La cuestión de la congruencia representacional se refiere a si la IA organiza la información de manera similar a como lo hacen los humanos. No debe confundirse con la alineación de valores, que se refiere al desafío de garantizar que los sistemas de IA sigan los resultados y objetivos previstos por los humanos.

Debido a que el aprendizaje humano incorpora nueva información en una red de conocimientos previos, las relaciones entre conceptos nuevos y existentes pueden estudiarse y medirse. Esto significa que la alineación representacional puede ser un problema que tiene solución y un paso hacia la solución de desafíos de alineación más amplios.

Un enfoque para el emparejamiento de representaciones se centra en construir sistemas de inteligencia artificial que se comporten como humanos en tareas psicológicas, lo que permite a los investigadores comparar representaciones directamente. Por ejemplo, si los humanos juzgan que un gato se parece más a un perro que a un elefante, el objetivo es construir modelos de IA que lleguen a los mismos juicios.

Una técnica prometedora consiste en entrenar inteligencia artificial a partir de evaluaciones de semejanza humana recopiladas en el laboratorio. En estos estudios, a los participantes humanos se les podían mostrar tres imágenes y se les preguntaba cuáles dos objetos eran más similares; por ejemplo, una taza se parece más a un vaso o a un cuenco. La incorporación de estos datos durante el entrenamiento alienta a los sistemas de inteligencia artificial a aprender cómo se relacionan los objetos entre sí, creando representaciones que reflejen mejor cómo los humanos entienden el mundo.

Vista posterior del hombre mirando radiografías de tórax y otras partes del cuerpo.

Los proveedores de atención médica quieren sistemas de inteligencia artificial que señalen problemas reales, sin muchos errores ni falsos positivos. REB Images/Enlace de imágenes a través de Getty Images Alineación fuera de la vista

La alineación representacional es importante más allá de los sistemas de visión, y los investigadores de IA lo están notando. A medida que la IA apoya cada vez más decisiones de alto riesgo, las diferencias entre cómo las máquinas y los humanos representan el mundo tendrán consecuencias reales, incluso cuando el sistema de IA parezca muy preciso. Por ejemplo, si una IA que analiza imágenes médicas aprende a asociar la fuente de la imagen o los artefactos repetidos de la imagen con una enfermedad en lugar de los signos visuales reales de la enfermedad en sí, esto es claramente problemático.

La IA no necesariamente procesa la información exactamente como piensan los humanos, pero entrenarla utilizando principios extraídos de la percepción y la cognición humanas, como la similitud, el contexto y la estructura relacional, puede conducir a sistemas más seguros, precisos y éticos.


Descubre más desde USA Today

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Comparte este artículo
Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESSpanish

Descubre más desde USA Today

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo