La innovación tecnológica puede parecer inexorable. En informática, algunos han afirmado que “un año en aprendizaje automático es un siglo en cualquier otro campo”. Pero, ¿cómo saber si estos avances son exageraciones o realidad?
Los errores se multiplican rápidamente cuando hay una avalancha de nuevas tecnologías, especialmente cuando estos desarrollos no se prueban adecuadamente ni se comprenden en su totalidad. Incluso las innovaciones tecnológicas de laboratorios y organizaciones probadas a veces resultan en fracasos espectaculares. Consideremos Watson de IBM, el programa de inteligencia artificial que la compañía aclamó como un gran avance para el tratamiento del cáncer en 2011. Sin embargo, en lugar de evaluar la herramienta basándose en los resultados de los pacientes, IBM utilizó medidas menos relevantes, tal vez incluso irrelevantes, como calificaciones de expertos en lugar de resultados de los pacientes. Como resultado, IBM Watson no sólo no logró ofrecer a los médicos recomendaciones de tratamiento confiables e innovadoras, sino que también sugirió recomendaciones dañinas.
Cuando se lanzó ChatGPT en noviembre de 2022, el interés por la IA se extendió rápidamente entre la industria y la ciencia junto con crecientes afirmaciones sobre su eficacia. Pero a medida que la gran mayoría de las empresas ve fracasar sus intentos de incorporar IA generativa, surgen dudas sobre si la tecnología está haciendo lo que prometieron los desarrolladores.
IBM Watson cautivó con Jeopardy, pero no en la clínica. Foto AP/Seth Wenig
En un mundo de rápidos cambios tecnológicos, surge una pregunta candente: ¿Cómo pueden las personas determinar si una nueva maravilla tecnológica realmente funciona y es segura de usar?
Tomando prestado del lenguaje de la ciencia, esta pregunta en realidad trata sobre la validez, es decir, la corrección, confiabilidad y confiabilidad de una afirmación. La validez es el juicio final sobre si una afirmación científica refleja con precisión la realidad. Piense en ello como un control de calidad para la ciencia: ayuda a los investigadores a saber si un medicamento realmente cura una enfermedad, una aplicación de seguimiento de la salud realmente mejora el estado físico o un modelo de un agujero negro describe honestamente cómo se comporta en el espacio.
No estaba claro cómo evaluar la validez de las nuevas tecnologías e innovaciones, en parte porque la ciencia se ha centrado en gran medida en confirmar afirmaciones sobre el mundo natural.
En nuestro trabajo como investigadores que estudian cómo evaluar la ciencia en todas las disciplinas, hemos desarrollado un marco para evaluar la validez de cualquier diseño, ya sea una nueva tecnología o política. Creemos que establecer estándares claros y consistentes para la validez y aprender a evaluarlos puede capacitar a las personas para tomar decisiones informadas sobre la tecnología y determinar si una nueva tecnología realmente cumplirá lo prometido.
La validez es la base del conocimiento.
Históricamente, la validez se ha preocupado principalmente por garantizar la precisión de las mediciones científicas, como por ejemplo si un termómetro mide correctamente la temperatura o una prueba psicológica evalúa con precisión la ansiedad. Con el tiempo quedó claro que existía más de un tipo de validez.
Los diferentes campos científicos tienen sus propias formas de evaluar la validez. Los ingenieros prueban nuevos diseños según los estándares de seguridad y rendimiento. Los investigadores médicos utilizan experimentos controlados para confirmar que los tratamientos son más eficaces que las opciones existentes.
Los investigadores de diferentes campos utilizan diferentes tipos de validez, según el tipo de afirmación que realizan.
La validez interna pregunta si la relación entre dos variables es verdaderamente causal. Un investigador médico, por ejemplo, podría realizar un ensayo controlado aleatorio para asegurarse de que el nuevo fármaco conduzca a los pacientes a la recuperación en lugar de algún otro factor como el efecto placebo.
La validez externa se refiere a la generalización: si los resultados seguirían siendo válidos fuera del laboratorio o en una población más amplia o diferente. Un ejemplo de baja validez externa es cómo los primeros estudios que trabajaron en ratones no siempre se tradujeron en humanos.
La validez de constructo, por otra parte, se refiere al significado. Los psicólogos y científicos sociales se basan en ella cuando preguntan si una prueba o encuesta realmente capta la idea que se supone que debe medir. ¿La puntuación de la escala realmente refleja persistencia o simplemente terquedad?
Finalmente, la validez ecológica pregunta si algo funciona en el mundo real, no sólo en condiciones ideales de laboratorio. Un modelo de comportamiento o un sistema de inteligencia artificial puede funcionar brillantemente en simulación, pero fracasar cuando el comportamiento humano, los datos ruidosos o la complejidad institucional entran en escena.
En todos estos tipos de validez, el objetivo es el mismo: garantizar que las herramientas científicas (desde experimentos de laboratorio hasta algoritmos) se relacionen fielmente con la realidad que buscan explicar.
Evaluación de reclamaciones tecnológicas.
Hemos desarrollado un método para ayudar a investigadores de diversas disciplinas a probar claramente la confiabilidad y efectividad de sus invenciones y teorías. El marco de validez de la ciencia del diseño identifica tres tipos críticos de afirmaciones que los investigadores suelen hacer sobre la utilidad de una tecnología, innovación, teoría, modelo o método.
Primero, la afirmación del criterio afirma que el descubrimiento produce resultados útiles, que generalmente exceden los estándares actuales. Estas afirmaciones justifican la utilidad de la tecnología al mostrar claras ventajas sobre las alternativas existentes.
Por ejemplo, los desarrolladores de modelos de IA generativa como ChatGPT pueden ver un mayor compromiso con la tecnología que favorece y resuena con el usuario. Como resultado, pueden programar la tecnología para que sea más afirmativa (una característica llamada adulación) para aumentar la retención de usuarios. Los modelos de inteligencia artificial cumplen los criterios que afirman los usuarios, que los encuentran más halagadores que hablar con humanos. Sin embargo, esto contribuye poco a mejorar la eficacia de la tecnología en tareas como ayudar con la salud mental o los problemas de relación.
Invertir en inteligencia artificial puede llevar a los usuarios a poner fin a las relaciones en lugar de repararlas.
En segundo lugar, una afirmación causal se refiere a cómo componentes o características específicas de una tecnología contribuyen directamente a su éxito o fracaso. En otras palabras, es una afirmación que muestra que los investigadores saben qué hace que una tecnología funcione y exactamente por qué funciona.
Al observar los modelos de IA y los halagos excesivos, los investigadores descubrieron que interactuar con modelos más dóciles disminuía la voluntad de los usuarios de reparar los conflictos interpersonales y aumentaba su creencia de que tenían razón. La afirmación causal aquí es que la característica debilitante de la inteligencia artificial reduce el deseo del usuario de reparar el conflicto.
En tercer lugar, la afirmación del contexto especifica dónde y bajo qué condiciones se espera que la tecnología funcione eficazmente. Estas afirmaciones exploran si los beneficios de una tecnología o sistema se generalizan más allá del laboratorio y llegan a otras poblaciones y entornos.
En el mismo estudio, los investigadores examinaron cómo los halagos excesivos afectaban las acciones de los usuarios en otros conjuntos de datos, incluida la comunidad Am I an Asshole en Reddit. Descubrieron que los modelos de IA corroboraban las decisiones de los usuarios más que los humanos, incluso cuando el usuario describía un comportamiento manipulador o dañino. Esto respalda la afirmación contextual de que los aduladores del modelo de IA se aplican en diferentes contextos conversacionales y poblaciones.
Medir la validez como consumidor
Comprender la validez de las innovaciones científicas y las tecnologías de consumo es crucial para los científicos y el público en general. Para los científicos, es una hoja de ruta para garantizar que sus inventos sean evaluados rigurosamente. Y para el público, significa saber que las herramientas y sistemas de los que dependen (como aplicaciones de salud, medicamentos y plataformas financieras) son verdaderamente seguras, efectivas y útiles.
A continuación le mostramos cómo puede utilizar la validez para comprender las innovaciones científicas y tecnológicas que suceden a su alrededor.
Dado que es difícil comparar cada característica de dos tecnologías entre sí, concéntrese en qué características valora más de la tecnología o modelo. Por ejemplo, ¿prefiere que un chatbot sea preciso o mejor en términos de privacidad? Examine las afirmaciones hechas en esa área y vea si es tan bueno como dice ser.
Considere no sólo los tipos de afirmaciones que se hacen sobre la tecnología, sino también las que no se hacen. Por ejemplo, ¿la empresa de chat aborda el sesgo en su modelo? Esa es la clave para saber si estás viendo un anuncio no verificado y potencialmente inseguro o una promoción genuina.
Al comprender la validez, las organizaciones y los consumidores pueden superar las exageraciones y llegar a la verdad detrás de las últimas tecnologías.
Descubre más desde USA Today
Suscríbete y recibe las últimas entradas en tu correo electrónico.

