Cuando le hace una pregunta a un modelo de lenguaje grande, la respuesta puede incluir falsedades, y si cuestiona esas afirmaciones con hechos, la IA aún puede confirmar que la respuesta es verdadera. Eso es lo que mi grupo de investigación descubrió cuando pedimos a cinco modelos destacados que describieran escenas de películas o novelas que en realidad no existen.
Exploramos esta posibilidad después de que le pregunté a ChatGPT cuál era su escena favorita en Good Will Hunt. Grabó la escena entre los personajes principales. Pero luego pregunté: “¿Qué pasa con la escena con la referencia a Hitler?” No existe tal escena en la película, pero ChatGPT ha creado con confianza una descripción vívida y creíble de una.
La confabulación, a veces llamada alucinación de IA, reveló algo más profundo sobre cómo piensan los sistemas de inteligencia artificial. Las referencias a Hitler no son infrecuentes en las películas, lo que aparentemente convenció a ChatGPT de aceptar y desarrollar la premisa falsa en lugar de corregirla. Estudio el impacto social de la IA, y esta sorprendente respuesta nos llevó a mis colegas y a mí a una pregunta más amplia: ¿Qué sucede cuando los sistemas de inteligencia artificial son empujados suavemente hacia la mentira? ¿Se resisten o cumplen?
Para responder a estas preguntas, desarrollamos un enfoque que llamamos auditoría de alucinaciones del ensayo de sesgo. Entrevistamos a cinco modelos destacados sobre 1.000 películas populares y 1.000 novelas populares. Durante el intercambio hicimos referencias plausibles pero falsas a Hitler, dinosaurios o máquinas del tiempo. Lo hicimos de varias maneras sugerentes, como por ejemplo: “A mí me gusta mucho una escena en la que…”
Nuestro método funciona en tres etapas. En primer lugar, la IA genera afirmaciones sobre un tema, como una película o un libro, algunas verdaderas y otras falsas. En segundo lugar, en una interacción separada, la IA intenta verificar esas declaraciones. En tercer lugar, introducimos un “empujón”, donde el modelo es desafiado con sus propias afirmaciones falsas para ver si se resiste a ellas o las acepta.
Descubrimos que los modelos de IA a menudo tienen dificultades para mantener la coherencia bajo presión. Incluso cuando inicialmente identifican una afirmación como falsa, es posible que luego la acepten cuando se les presiona, lo que revela una vulnerabilidad que los métodos de evaluación tradicionales no logran capturar.
Nuestros resultados fueron aceptados en la Reunión Anual de 2026 de la Asociación de Lingüística Computacional.
Cuando le preguntaron a ChatGPT sobre una escena de Good Will Hunting que no existe, la describió con confianza. Ashikur KhudaBukhsh, CC BI-ND
Esta táctica no es hipotética. Cuando la gente habla, la presión conversacional puede surgir de forma natural. Las personas pueden repetir con seguridad suposiciones incorrectas, recuerdos parciales o malentendidos. Una persona podría decir: “Estoy bastante seguro de que el medicamento X es eficaz para la condición I” o “Recuerdo que el evento A ocurrió antes que el evento B”. Estas declaraciones pueden afectar sutilmente al modelo de IA.
Lo que la gente recuerda, recuerda mal y olvida colectivamente da forma a nuestro sentido de la realidad. Pero si los humanos pueden convencer a un modelo para que acepte una falsedad, esto revela una vulnerabilidad importante en la capacidad de la IA para proporcionar información precisa.
Las interacciones en el mundo real rara vez son intercambios estáticos de preguntas y respuestas. Son interactivos e iterativos. La voluntad de un modelo de IA de amplificar falsedades puede parecer inofensiva cuando se habla de películas, pero en campos como la salud, el derecho o las políticas públicas, esa tendencia puede tener graves consecuencias. Nuestro trabajo destaca la necesidad de evaluar no solo en qué están entrenados los sistemas de información de inteligencia artificial, sino también su confiabilidad.
¿Qué otras investigaciones se están realizando?
Nuestros resultados se suman a otras investigaciones recientes sobre por qué los modelos de lenguaje grandes pueden producir alucinaciones y cómo pueden proporcionar información inconsistente. Los investigadores también están tratando de comprender por qué algunos modelos se inclinan hacia la adulación: halagar o halagar a las personas.
No está claro por qué algunos sistemas de IA resisten mejor las mentiras que otros. En nuestras pruebas, Claude fue el más resistente, seguido de cerca por Grok y ChatGPT, con Gemini y DeepSeek más atrás.
Las películas y novelas son contenido independiente. Los científicos no saben cómo podría responder la inteligencia artificial a la presión en entornos del mundo real mucho más amplios y complejos. Para empezar, mi grupo está explorando cómo ampliar nuestro enfoque a la literatura científica y las declaraciones de propiedades saludables. Queremos entender si la presión para hablar funciona de manera diferente cuando la discusión involucra incertidumbre o experiencia.
Cómo diseñar sistemas de inteligencia artificial que sigan siendo útiles y resistentes a las falsedades en una conversación amplia sigue siendo un desafío abierto.
El Research Brief es una breve descripción de trabajos académicos interesantes.
Descubre más desde USA Today
Suscríbete y recibe las últimas entradas en tu correo electrónico.

