Idealmente, la inteligencia artificial tiene como objetivo ayudar a las personas, pero ¿qué significa cuando las personas quieren cosas en conflicto? A mis colegas y yo se nos ocurrió una manera de medir la armonización de grupos de personas y agentes agios.
El problema de la liquidación, asegurando que los sistemas de IA actúen de acuerdo con los valores humanos, se volviera más urgente porque y las oportunidades crecen exponencialmente. Pero la armonización y la humanidad parecen imposibles en el mundo real porque todos tienen sus prioridades. Por ejemplo, el peatón podría conducir un automóvil para conducir a los frenos si parece probable el accidente, pero el pasajero en el automóvil puede preferir cubrir.
Al observar estos ejemplos, hemos desarrollado un resultado para factores no criados basados en tres factores clave: personas y agentes involucrados, sus objetivos específicos para diferentes temas y cuánto es su pregunta. Nuestro modelo de desajuste se basa en una visión simple: un grupo de personas y agentes de IA son los primeros cuando los objetivos del grupo son más compatibles.
En las simulaciones, descubrimos que los tops no asignados cuando los objetivos se distribuyen uniformemente entre los agentes. Tiene sentido: si todos quieren algo diferente, el conflicto es el más alto. Cuando la mayoría de los agentes comparten el mismo objetivo, los desajustes caen.
¿Por qué es importante?
La mayoría de las investigaciones de seguridad de IA se tratan como teniendo todo o nada. Nuestro marco muestra que es más complejo. La misma IA puede ser armonizada con personas en un contexto, pero no está convencido en otro.
Esto es importante porque ayuda y los desarrolladores sean más específicos sobre lo que quieren decir siempre que estén alineadas. En lugar de objetivos vagos, como el acuerdo con los valores humanos, los investigadores y los desarrolladores pueden hablar más claramente sobre contextos y roles específicos. Por ejemplo, la IA, el sistema recomendado de uno “puede gustar” las producciones de productos.
Los sistemas recomendados utilizan tecnologías sofisticadas y para influir en los consumidores, que ni siquiera lo colocan sin asentarse con los valores humanos.
Para los formuladores de políticas, los marcos de evaluación, como nuestra forma de medir la falta de coincidencia en los sistemas utilizados y crean estándares de alineación. Para los desarrolladores y los equipos de seguridad, proporciona un marco para equilibrar los intereses competitivos de las partes interesadas.
Para todos, la comprensión clara de los problemas hace que las personas puedan ayudar a resolver.
Otra investigación ocurre
Para resolver la alineación, nuestra investigación supone que podemos comparar lo que la gente quiere con lo que la IA quiere. Los datos de valor humano se pueden recopilar a través de encuestas, y el campo de la elección social ofrece herramientas útiles para la interpretación de la alineación de la IA. Desafortunadamente, aprender metas y agentes es mucho más difícil.
Los sistemas más inteligentes y de hoy en día son modelos de idiomas grandes, y su caja negra facilita aprender los objetivos y las agencias como el chatgtpt que es Molly. La exploración de las interpretaciones puede ayudar a descubrir los “pensamientos” internos, o los investigadores podrían diseñar una IA que considere transparentemente. Pero por ahora es imposible saber si el sistema y el sistema están realmente armonizados.
Que sigue
Por ahora, reconocemos que a veces los objetivos y las preferencias no reflejan completamente lo que la gente quiere. Para abordar los escenarios de los fanáticos, trabajamos en enfoques de alineación y expertos en filosofía moral.
En el futuro, esperamos que los desarrolladores implementen herramientas prácticas para medir y mejorar la armonización a través de varias poblaciones humanas.
La presentación de la investigación es para tomar un trabajo académico interesante.
Descubre más desde USA Today
Suscríbete y recibe las últimas entradas en tu correo electrónico.