En medicina se conoce máxima máxima: nunca digas más de lo que los datos lo permiten. Es una de las primeras lecciones aprendidas por médicos e investigadores.
Se esperan los editores de la revista. Los revisores lo requieren. E investigadores médicos principalmente de acuerdo. Están vivos, calificados y reducen sus afirmaciones, a menudo al precio de la claridad. Lleve esta conclusión, escrita para el estilo de espejo de un informe de ensayo clínico típico:
“En los 498 pacientes europeos aleatorizados con mieloma repetido o refractario, el tratamiento aumentó en los mandatos promedio no valuados en el 60 por ciento de los pacientes y mejoras modestas para lograr la calidad de vida, aunque no se encuentran poblaciones generales”.
Es una escritura médica en la más popular y agotadora. Preciso, pero no muy fácil de tomar.
No es sorprendente, entonces, aquellos que cuidadosamente conclusiones a menudo se simplifican en algo más limpio y más seguro. El ejemplo anterior se puede simplificar en algo como: “El tratamiento mejora la supervivencia y la calidad de vida”. “La droga tiene una toxicidad aceptable”. “Los pacientes con múltiples mielomas se benefician del nuevo tratamiento”. Claro, resumido, pero a menudo más allá de los datos justificados.
Los filosofilos son estos tipos de declaraciones de generación: generalizaciones sin cuantificadores explícitos. Declaraciones como “El tratamiento es efectivo” o “El medicamento es seguro” Autoridad, pero no dicen: ¿Para quién? ¿Cuánto cuesta? En comparación con el uno? ¿En que condiciones?
La inteligencia artificial amenaza con deteriorar significativamente el problema de invadir los resultados de la investigación médica. (AP Photo / Peter Morgan) Generalización en investigación médica
En trabajos anteriores en comunicación de salud, señalamos cómo la generación en la investigación médica fluye los tonos de limpieza, transformando estrechas, hallazgos específicos para eliminar las afirmaciones de que los lectores están equivocados para negociar a todos los pacientes.
En el examen sistemático, más de 500 estudios de las mejores revistas médicas, encontramos más de la mitad de las generalizaciones estudiadas por la población. Más del 80 por ciento de ellos eran genéricos, y menos del 10 por ciento ofreció cualquier excusa para estas reclamaciones generales.
La tendencia del investigador a recalcular puede reflejar un sesgo cognitivo más profundo. Frente a la complejidad y la atención limitada, las personas naturalmente graban en afirmaciones más simples y más amplias, incluso cuando se extienden más allá de los datos compatibles. De hecho, la unidad en sí explica los datos, para contar una historia coherente, puede llevar a los investigadores cuidadosos a hacerse cargo del sobregiro.
La inteligencia artificial (IA) ahora amenaza significativamente deteriorando este problema. En nuestra última investigación, probamos 10 modelos de idiomas grandes ampliamente utilizados (LLMS), incluidos ChatgGPT, Deepseek, Llama y Clauda, sobre su capacidad para resumir los resúmenes y artículos de las mejores revistas médicas.
Incluso cuando se les solicita, la mayoría de los modelos eliminan rutinariamente las calificaciones, los hallazgos y los rechazos también contextualizados cuidadosamente los investigadores contextualizados cuidadosamente como declaraciones más amplias.
Resúmenes generados por IA
Analizando casi 5,000 resúmenes de subordinios, encontramos tasas de tales generalizaciones municipales hasta el 73 por ciento para algunos modelos. Muy a menudo, las afirmaciones neurias en genéricos, por ejemplo, cambiar de “el tratamiento es efectivo en este estudio”, por lo que simplemente “tratamiento efectivamente”, lo que tergiversó el alcance verdadero del estudio.
Extendiéndose, cuando comparamos los resúmenes generados en LLM con los que han escrito los expertos humanos, los chatbots tenían casi cinco veces más probabilidades de producir amplias generalizaciones. Pero quizás la mayoría en relación con estos modelos más nuevos, incluidos los chatggpt -4o y las tendencias profundas, a ser más generalizadas, no menos.
¿Qué explica estos hallazgos? Los LLM capacitados en textos científicos excesivamente generalizados pueden heredar el sesgo humano de la entrada. A través del refuerzo en el aprendizaje de retroalimentación humana, también pueden comenzar a establecer conclusiones seguras y amplias debido a los requisitos cuidadosos y contextualizados, porque a los usuarios a menudo les gusta resumir las respuestas asertivas.
Los riesgos resultantes para comunicaciones incorrectas son altos, porque los investigadores, médicos y estudiantes son utilizados cada vez más por los LLM para ser artículos científicos.
Los investigadores utilizados por LLM para la sumurización deben seguir siendo una precisión de bien intencionada que pueden lidiar con el fuego. Impresión canadiense / Giordano Ciampini
En la reciente encuesta global sobre casi 5,000 investigadores, casi la mitad ya informó el uso de IA en su investigación, y el 58 por ciento creía que actualmente la IA actualmente trabaja mejores resúmenes para bienes de las personas. Algunos afirman que los LLM pueden exceder a los profesionales médicos en la resurización clínica del texto.
Nuestro estudio se sospecha de optimismo. Las generalizaciones excesivas producidas a partir de estas herramientas tienen el potencial de distorsionar la comprensión científica en gran medida. Esto es especialmente preocupante en los campos de altos insertos, como el medicamento, donde están en la población, el tamaño del efecto y la incertidumbre es realmente importante.
Preguntas precisas
Entonces, ¿qué se puede hacer? Para los autores humanos, las pautas más claras y las políticas editoriales que se ocupan de los datos y cómo los hallazgos descritos pueden reducir las generalizaciones de revisión en la escritura médica. Además, los investigadores que usan LLM para resumir deben favorecer modelos como Claud, el LLM más preciso en nuestra investigación, y siguen siendo conscientes de que incluso una precisión bien intencionada puede tratar.
Y los desarrolladores, a su vez, podrían construir instrucciones en sus LLM que fomentan un lenguaje más cuidadoso al sumar la investigación. Finalmente, la metodología de nuestro estudio puede ayudar a cumplir con la reflexión de LLMS antes de organizarlos en contextos del mundo real.
En la investigación médica, problemas precisos, no solo en la forma en que recopilamos y analizamos los datos, sino también cómo nos comunicamos. Nuestra investigación revela una tendencia conjunta y sobre humanos y máquinas para hacerse cargo de la sobreestimación, para decir más de lo que los datos sean más fáciles.
Resolver esta tendencia significa mantener la inteligencia natural y artificial a estándares más altos: probar no solo cómo los investigadores comunican los resultados, sino también cómo capacitamos las herramientas que colocamos cada vez más formateo y comunicación. En medicina, es imperativo un lenguaje cuidadoso para garantizar que los tratamientos reales lleguen a pacientes reales, que la evidencia asistida realmente se aplica.
Descubre más desde USA Today
Suscríbete y recibe las últimas entradas en tu correo electrónico.