OpenAI está formando un nuevo equipo dirigido por Ilya Sutskever, científico jefe y uno de los cofundadores de la compañía, para desarrollar formas de dirigir y controlar sistemas de inteligencia artificial “superinteligentes”.
EN Blog En una publicación publicada hoy, Sutskever y Jan Leike, líder del equipo correspondiente de OpenAI, predicen que la IA con una inteligencia superior a la de los humanos podría surgir en una década. Esta IA, suponiendo que finalmente surja, no será necesariamente benévola, lo que requerirá investigar formas de controlarla y limitarla, dicen Sutskever y Leike.
“Actualmente, no tenemos una solución para dirigir o controlar una IA potencialmente superinteligente y evitar que se vuelva deshonesta”, escriben. “Nuestras técnicas actuales de adaptación de la IA, como el aprendizaje por refuerzo basado en la retroalimentación humana, se basan en la capacidad de los humanos para supervisar la IA. Pero los humanos no podrán supervisar de manera confiable los sistemas de inteligencia artificial mucho más inteligentes que nosotros”.
Para hacer avanzar la aguja en el área de “coincidencia de superinteligencia”, OpenAI está creando un nuevo equipo de superalineación, dirigido por Sutskever y Leike, que tendrá acceso al 20 % de la potencia informática que la empresa ha asegurado hasta ahora. . El equipo, al que se unirán científicos e ingenieros de la antigua división de emparejamiento de OpenAI, así como investigadores de otras organizaciones de la empresa, tendrá como objetivo resolver los desafíos técnicos subyacentes del control de la IA superinteligente durante los próximos cuatro años.
¿Cómo? Al crear lo que Sutskever y Leike describen como “un investigador automatizado de alineación a nivel humano”. El objetivo general es entrenar los sistemas de IA utilizando los comentarios de los humanos, entrenar la IA para ayudar a evaluar otros sistemas de IA y, en última instancia, construir una IA que pueda realizar estudios coincidentes. (Aquí, “investigación sobre el estado físico” se refiere a garantizar que los sistemas de IA logren los resultados deseados o se mantengan en el camino correcto).
Es la hipótesis de OpenAI que la IA puede progresar más rápido y mejor en la investigación de coincidencias que los humanos.
“A medida que esto avanza, nuestros sistemas de IA pueden hacerse cargo cada vez más de nuestro trabajo de coincidencia y, en última instancia, inventar, implementar, investigar y desarrollar mejores técnicas de coincidencia que las que tenemos hoy en día.” – Leike et al., John Schulman y Jeffrey Wu explicar en el blog anterior rápido. “Trabajarán con la gente para asegurarse de que sus sucesores estén más conectados con la gente. Los investigadores humanos se centrarán cada vez más en revisar los estudios de comparación realizados por los sistemas de IA, en lugar de generarlos ellos mismos”.
Por supuesto, ningún método es infalible, y Leike, Schulman y Wu admiten muchas de las limitaciones de OpenAI en su publicación. El uso de IA para la evaluación tiene el potencial de aumentar la escala de inconsistencias, sesgos o vulnerabilidades en esta IA. Y es posible que descubra que las partes más difíciles del problema de alineación pueden no estar relacionadas con la ingeniería.
Pero Sutskever y Leike creen que vale la pena intentarlo.
“La coincidencia de superinteligencia es esencialmente un problema de aprendizaje automático, y creemos que los grandes expertos en aprendizaje automático, incluso si aún no están trabajando en la coincidencia, serán clave para resolverlo”, escriben. “Planeamos compartir ampliamente los frutos de estos esfuerzos y ver las contribuciones a la personalización y seguridad de los modelos que no son OpenAI como una parte importante de nuestro trabajo”.