Chatggpt y otros chatbots de IA basados en modelos de idiomas grandes se sabe que ocasionalmente hace cosas, incluidas citas científicas y legales. Resulta que la medición es cuán precisas son las citas y los modelos son una buena manera de evaluar la capacidad de razonar el modelo.
El modelo de IA “razones” rompiendo consultas en pasos y trabajando a través de ellas bien. Imagina cómo aprendiste a resolver problemas con las matemáticas en la escuela.
Idealmente, para generar citas, y un modelo comprender conceptos clave en el documento genera una lista clasificada de trabajos relevantes para establecer y garantizar un razonamiento convincente de que cada documento sugerido admite el texto apropiado. Esto enfatizaría ciertos vínculos entre el texto y la investigación citada, aclarando por qué cada fuente emite.
La pregunta es, ¿se pueden creer los modelos de hoy que estos lazos traen y garantizan un razonamiento claro que justifica sus elecciones de origen? La respuesta trasciende la precisión de la cita para resolver cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de encontrar información.
Soy un informático. Mis colegas: investigadores y el Instituto de la Universidad de Carolina del Sur, Maryland Baltimore University, y desarrollaron razones para probar cómo los grandes modelos de idiomas grandes pueden generar automáticamente objetivos de investigación y permitir un razonamiento comprensible.
Utilizamos una medida para comparar el rendimiento de dos modelos y razonamiento populares, Deepseekov R1 y OpenAI’s O1. Aunque Deepseek ha concluido los títulos con su impresionante eficiencia y economía, China Upstar tiene una manera de renunciar al rendimiento de razonamiento de OpenAI.
Específico
La precisión de la cita tiene mucho que ver con la información de razonamiento del modelo AI y el modelo AI a nivel de oración, no a nivel de documento. En las citas del nivel de párrafo y acusaciones en el nivel de documentos, se puede considerar para emitir mucha información en un modelo de lenguaje grande y solicitar que proporcione muchas citas.
En este proceso, el modelo de lenguaje grande exagera e incorpora mal las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no una información de grano relativamente fino en una oración.
Además, la explicación sufre cuando se busca un modelo grande de lenguaje para leer todo el documento. Estos modelos generalmente se basan en formas de almacenamiento que generalmente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto hace que sea difícil comprender toda la información importante durante el documento largo.
Los modelos de idiomas grandes se confunden porque los pasajes y los documentos tienen mucha información, lo que afecta la producción de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los grandes modelos de idiomas en los párrafos y documentos se vuelve más como resumir o parafrasear.
Las razones de las razones relevantes tratan esta debilidad al examinar la cita y el razonamiento de los grandes modelos de idiomas.
Como Deepseek R1 y OpenAI O1 se comparan principalmente en temas lógicos. Pruebas de citación y razonamiento
Para comenzar nuestra prueba, hemos desarrollado un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación sobre cuatro temas clave relacionados con el cerebro humano y la informática: neuronas y conocimiento, computadoras humanas, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: el resultado F -1, que mide cuánto se da una cita dada y la tasa de alucinación, que mide cómo es el razonamiento sólido: es, con qué frecuencia crea una respuesta incorrecta o incorrecta.
Nuestras pruebas revelaron diferencias significativas en el rendimiento entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI ha conectado bien la información entre diferentes objetos, como comprender cómo la investigación y la cognición de las neuronas están asociadas con la interacción en las computadoras de las computadoras humanas, y luego con los conceptos en inteligencia artificial, mientras que otros son precisos. Su métrica de rendimiento excedió constantemente Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y las tareas asignadas con éxito.
Operai O1 fue mejor en la combinación de ideas, mientras que R1 se centró en la seguridad de que generó una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Operai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de profundidad R1 de casi el 85% en una tarea basada en la atribución.
En términos de precisión y competencias de idiomas, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era exactamente el 65% del tiempo que respondió a las preguntas. También logró alrededor de 0.70 en la prueba Bleu, que mide qué tan bien puede escribir un modelo de lenguaje en lenguaje natural. Estos son resultados bastante buenos.
Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que fue exactamente aproximadamente el 35% del tiempo. Sin embargo, su resultado de Bleu fue solo alrededor de 0.2, lo que significa que su escritura no sonó así como OpenAi O1. Esto muestra que O1 fue mejor al presentar esa información sobre un lenguaje claro y natural.
OpenAi tiene una ventaja
En otras medidas, Deepseek R1 se realiza a un par con OpenAi O1 en matemáticas, codificación y científicos. Pero la diferencia esencial en nuestro nivel de referencia sugiere que O1 proporciona información más confiable, mientras que R1 está luchando contra el hecho.
Aunque hemos incluido otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 enfatiza especialmente el panorama competitivo actual en el desarrollo de la IA, y OpenA ofrece una ventaja significativa en la resolución y las oportunidades de conocimiento.
Estos resultados sugieren que OpenAi todavía tiene una pierna cuando se trata de una atribución y razonamiento de origen, probablemente debido a la naturaleza y el alcance de los datos que están vestidos. La compañía ha anunciado recientemente su herramienta de investigación profunda que puede crear informes de cotizaciones, hacer las preguntas adjuntas y proporcionar razonamiento de la respuesta generada.
El jurado todavía se basa en las herramientas de investigación para los investigadores, pero también sigue siendo advertencia para todos: verifique doble todas las citas y le brinda IA.
Descubre más desde USA Today
Suscríbete y recibe las últimas entradas en tu correo electrónico.