Las encuestas y las encuestas ayudan a las sociedades a comprender lo que la gente piensa sobre temas de política, salud, educación y más. Pero hoy en día tiende a responder menos gente, por lo que los encuestadores tienen que llegar a un mayor número de personas, lo que aumenta considerablemente los costos. Un proveedor de encuestas cuesta decenas de miles de dólares por una encuesta de diez minutos a 1.000 personas.
¿Podrían los modelos de IA reemplazar a cientos o miles de humanos, imitando la gama de respuestas que proporcionarían los humanos? Esta práctica, conocida como investigación sintética o muestreo de silicio, ya se realiza y es mucho menos costosa. ¿Pero son confiables los resultados?
Soy un investigador de aprendizaje automático. Estudio grandes modelos de lenguaje y su uso en medicina y ciencia. Estos sistemas cambian constantemente a medida que las empresas los actualizan. Diferentes consultas, configuraciones y versiones de modelos pueden dar respuestas muy diferentes a las preguntas. Esa característica puede dificultar el uso confiable del modelo en la investigación de ciencias sociales, pero puede ayudar a simular las respuestas de muchas personas, lo que los investigadores llaman “encuestados sintéticos”.
Para generar 10.000 respuestas de ChatGPT, por ejemplo, el entrevistador sugeriría algunos datos demográficos básicos de los encuestados y el contexto del modelo, como “Usted es un joven votante urbano que va a la universidad y tiene opiniones políticas conservadoras. Responda las siguientes preguntas”. Los investigadores pueden cambiar la configuración demográfica para obtener muchas respuestas diferentes de ChatGPT para la misma consulta.
El modelo también tiene su propia aleatoriedad interna, por lo que, naturalmente, genera diferentes respuestas a la misma pregunta que se formula repetidamente. De esta manera, los investigadores pueden combinar indicaciones y aleatoriedad para crear 10.000 respuestas sintéticas diferentes.
Las simulaciones no son opiniones.
Los encuestadores han utilizado durante mucho tiempo modelos estadísticos para generalizar los resultados a partir de un número finito de respuestas. Y los analistas pueden llegar a conclusiones diferentes a partir de los mismos datos de la encuesta. Los estudios de sujetos con productos sintéticos sugieren que pueden ser incluso más sensibles que los humanos a pequeños cambios en las instrucciones o configuraciones, produciendo resultados tremendamente diferentes.
Pero el uso de sujetos sintéticos plantea una cuestión más profunda. Las encuestas no son sólo herramientas de pronóstico. Son herramientas de medición que tienen como objetivo comprender lo que realmente piensa la gente. El termómetro mide tu temperatura directamente. No confiarías en alguien que estimara tu temperatura consultando un modelo de IA.
Los investigadores que encuestan sistemas de inteligencia artificial en lugar de humanos no miden la opinión pública, simplemente la simulan. José Carlos Cerdeño Martínez vía Getty Images
Los grandes modelos de lenguaje y otras herramientas de inteligencia artificial heredan sesgos y puntos ciegos de los datos con los que se entrenan. Por ejemplo, la IA puede simplificar demasiado o distorsionar las opiniones de grupos de personas que están subrepresentadas en línea. Las encuestas tradicionales también tienen sesgos, pero muchos de los sesgos de los sistemas modernos de IA están ocultos a la vista del público dentro de modelos propietarios cerrados. Para empeorar las cosas, los encuestadores pueden presentar al público los resultados de encuestados sintéticos como si provinieran de encuestas humanas.
Estas fallas pueden socavar la confianza en las encuestas y la investigación mediante encuestas. También desencadenan una interesante paradoja. Los datos sintéticos, creados por computadoras o simulaciones, se utilizan ampliamente en la inteligencia artificial moderna. Ayuda a entrenar sistemas de inteligencia artificial para medicina, finanzas, robótica, vehículos autónomos y otras disciplinas. Entonces, ¿por qué las respuestas sintéticas de las encuestas parecen más problemáticas?
La diferencia clave es que los datos sintéticos se comparan con la realidad. Un automóvil autónomo puede entrenarse con imágenes y videos sintéticos de diferentes condiciones de la carretera, pero un fabricante de automóviles nunca pondría un automóvil en la vía pública sin pruebas exhaustivas en el mundo real. Si los datos sintéticos perjudican el rendimiento, los ingenieros pueden corregir, volver a capacitar o reemplazar el sistema.
Los investigadores pueden tratar las respuestas sintéticas de las encuestas como la opinión pública misma, pero el sistema no mide la opinión pública. Simula la opinión pública basándose en los datos con los que fue entrenado. Si las opiniones simuladas distorsionan la realidad, es posible que los investigadores no se den cuenta hasta que las conclusiones erróneas ya estén dando forma a las políticas públicas, las decisiones comerciales o la investigación científica.
Diseño y análisis más eficientes
Aún así, hay formas en que la IA puede ayudar a la investigación de encuestas sin socavar las encuestas de opinión pública. Las herramientas de inteligencia artificial pueden ayudar a los investigadores a redactar preguntas más claras al simplificar la redacción, reducir la ambigüedad y eliminar las repeticiones. Pueden ayudar a evitar preguntas innecesarias, facilitando la respuesta de las personas. Estas herramientas también pueden personalizar encuestas en diferentes idiomas.
Una vez que se completa una encuesta, la IA puede ayudar a los investigadores a organizar grandes volúmenes de respuestas abiertas, resumir temas recurrentes y procesar encuestas incompletas de manera más eficiente que los analistas humanos. Algunos investigadores están explorando enfoques híbridos que combinan encuestas humanas más pequeñas con análisis asistidos por IA.
Los tomadores de decisiones utilizan encuestas y sondeos para escuchar y comprender las voces de las personas afectadas por sus decisiones. Reemplazar sujetos humanos con sujetos sintéticos corre el riesgo de debilitar esa conexión. Al mismo tiempo, la disminución de las tasas de respuesta y el aumento de los costos son verdaderos desafíos para la investigación.
Confío en que futuras investigaciones puedan encontrar formas de utilizar la IA de manera transparente y eficaz, de una manera científicamente defendible, sin reemplazar a los humanos.
Descubre más desde USA Today
Suscríbete y recibe las últimas entradas en tu correo electrónico.

