¿Qué es un aprendizaje reforzado? Investigador de IA explica un método clave para enseñar máquinas, y cómo se refiere al entrenamiento de su perro

Periodista ANASTACIO ALEGRIA
7 Lectura mínima

Comprender el servicio de inteligencia y crear máquinas inteligentes son grandes desafíos científicos de nuestro tiempo. La capacidad de aprender de la experiencia es la piedra angular de la inteligencia para máquinas y seres vivos.

En el informe extremadamente purificado de 1948. El año, la hojuelas de Alan, el padre de la informática contemporánea, sugirió la construcción de máquinas que muestran un comportamiento inteligente. También discutió la “educación” de tales máquinas “utilizando premios y sanciones”.

Las ideas de Turing finalmente llevaron al desarrollo del refuerzo en el aprendizaje, una rama de la inteligencia artificial. El aprendizaje de los refuerzos diseña fondos inteligentes mediante la capacitación para maximizar las recompensas a medida que se comunican con su entorno.

Como investigador para aprender una máquina, creo que al colocar a estos pioneros de aprendizaje reforzados Andrew Barto y Richard Sutton Awards 2024 ACM Turing.

¿Qué es un aprendizaje reforzado?

Los entrenadores animales saben que el comportamiento animal puede afectar la gratificación de los comportamientos deseables. El entrenador de perros da golosinas para perros cuando haces el truco correctamente. Esto refuerza el comportamiento y es más probable que el perro haga el truco la próxima vez. El aumento del aprendizaje prestó esta idea con la psicología animal.

Pero aprender refuerzo se refiere al entrenamiento en fondos informáticos, no en animales. El agente puede ser un agente de software como un programa de juego de ajedrez. Pero el agente también puede ser una entidad encarnada como un robot que aprende a hacer la tarea. Del mismo modo, el entorno del agente puede ser virtualmente, como una losa de ajedrez o un mundo diseñado en los videojuegos. Pero puede ser la casa donde funciona el robot.

Al igual que los animales, el agente puede notar aspectos de su entorno y tomar medidas. Slam y el agente de juego pueden acceder al tablero de ajedrez y hacer movimientos. El robot puede sentir su entorno con cámaras y micrófonos. Puede usar sus motores para moverse en el mundo físico.

Los agentes también tienen los objetivos que sus diseñadores humanos programaron en ellos. El objetivo del agente de ajedrez es obtener un partido. El robot desnudo puede ser ayudado con su dueño humano con las tareas domésticas.

El problema para los refuerzos de aprendizaje en la IA es diseñar agentes que logren sus objetivos observando y actuando en sus entornos. Armature Learning hace una afirmación atrevida: todos los objetivos se pueden lograr diseñando una señal numérica, llamada premio y que el agente maximizó el resumen total de los premios de los premios.

Aprender el refuerzo de la retroalimentación humana es crucial para mantener a las AIS que cumplen con los objetivos y valores humanos.

Los investigadores no saben si este reclamo es realmente preciso, debido a una amplia gama de objetivos posibles. Por lo tanto, a menudo se le llama una hipótesis de la adjudicación.

A veces es fácil seleccionar la señal de recompensa que se adapta al objetivo. Para un agente de juego de ajedrez, el premio puede ser +1 por ganar, 0 por sorteo y -1 por pérdida. Está menos claro cómo diseñar una señal de recompensa para el hogar útil de un asistente robótico. Sin embargo, la lista de aplicaciones donde los investigadores de aprendizaje podrían diseñar buenas señales de recompensa.

El gran éxito del refuerzo en el aprendizaje fue en el tablero de juego. Los investigadores pensaron que era mucho más difícil que el ajedrez para máquinas para superar. DeepMind, ahora Google Deepmind, se usa con aprendizaje reforzado para crear un alfágeno. Alphago ha sido derrotado al jugador de Top Go Lee Sedol en un juego con cinco partidos en 2016 años.

Un ejemplo reciente es el uso del aprendizaje armario para que ChatGots sea un usuario de ChatGPT. El aprendizaje reforzado también se usa para mejorar la capacidad de razonar para chatbot.

El origen del refuerzo en el aprendizaje

Sin embargo, ninguno de estos éxito podría proporcionarse en la década de 1980. Entonces Barto y su entonces. El estudiante Sutton sugirió el refuerzo de aprendizaje como un marco general para la resolución de problemas. Se inspiraron no solo en la psicología animal, sino también en el campo de la teoría de control, el uso de la retroalimentación para influir en el comportamiento y la optimización del sistema, una rama de matemáticas que estudia cómo elegir la mejor opción entre la opción disponible. Proporcionaron una comunidad de investigación con fundamentos matemáticos resistieron la prueba del tiempo. También crearon algoritmos que ahora se han convertido en herramientas estándar en el campo.

Es una ventaja rara para el campo cuando los pioneros necesitan tiempo para escribir un libro de texto. Ejemplos brillantes como “Nature Chemical Bond” Linus Pauling y “Art of Computer Program” Donald E. Knuth es inolvidable porque son pequeños y distantes. Sutton y Barto “Refuerzo de aprendizaje: Introducción” se publicó por primera vez en 1998. Años. La segunda edición salió en 2018. Años. Su libro afectó a la generación de investigadores y fue enumerada más de 75,000 veces.

El aprendizaje de refuerzo también tuvo un impacto inesperado en la neurociencia. La dopamina de neurotransmisores juega un papel clave en el comportamiento del premio otorgado en humanos y animales. Los investigadores utilizaron algoritmos específicos desarrollados en el aprendizaje en el aprendizaje para explicar los hallazgos experimentales en los pastos en el dopamina de los animales.

El trabajo fundamental, la visión y la defensa de Barto y Sutton ayudaron a aumentar el aprendizaje para crecer. Su trabajo inspiró una gran investigación, tuvo un impacto en las aplicaciones reales y atrajo enormes inversiones de empresas técnicas. Investigadores de refuerzo de fortalecimiento, estoy seguro de que continuará viendo más de pie sobre sus hombros.


Descubre más desde USA Today

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Comparte este artículo
Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESSpanish

Descubre más desde USA Today

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo