sistema de IA

sistema de IA

Fuente: Pixabay/CC0 Dominio público

A pesar de su gran éxito, el funcionamiento interno de los modelos de lenguaje grandes, como la familia de modelos GPT de OpenAI y Google Bard, sigue siendo un misterio, incluso para sus desarrolladores. Los investigadores de ETH y Google han descubierto un posible mecanismo clave detrás de su capacidad para aprender sobre la marcha y adaptar las respuestas en función de las interacciones de los usuarios.

Johannes von Oswald es estudiante de doctorado en un grupo dirigido por Angelika Steger, profesora de ETH en Ciencias de la Computación Teórica y está investigando algoritmos de aprendizaje para redes neuronales. Su nuevo trabajo será presentado en Conferencia Internacional de Aprendizaje Automático (ICML) a finales de julio. Actualmente disponible en arXiv servidor de preimpresión.

La T en GPT significa transformadores. ¿Qué son los transformadores y por qué se han vuelto tan comunes en la inteligencia artificial moderna?

Johannes von Oswald: Los transformadores son una arquitectura particular de una red neuronal artificial. Es utilizado por grandes modelos de idiomas como ChatGPT, por ejemplo, pero los investigadores de Google lo pusieron en el mapa en 2017, donde condujo a un rendimiento de vanguardia en la traducción de idiomas. Curiosamente, el pionero de la IA Jürgen Schmidhuber ya desarrolló una versión ligeramente modificada de esta arquitectura en 1991.

¿Y qué distingue a esta arquitectura?

Antes del reciente avance de Transformers, diversas tareas, como la clasificación de imágenes y la traducción a idiomas, utilizaban diferentes arquitecturas modelo, cada una especializada en esos dominios específicos. El aspecto clave que diferencia a los Transformers de los modelos de IA anteriores es que parecen desempeñarse excepcionalmente bien en cualquier tipo de tarea. Debido a su amplio uso, es importante entender cómo funcionan.

¿Qué ha revelado su investigación?

Si bien las redes neuronales generalmente se consideran una caja negra que escupe salida cuando se alimenta con entrada, hemos demostrado que los transformadores pueden autoaprender a implementar algoritmos dentro de su arquitectura. Pudimos demostrar que pueden implementar un algoritmo de aprendizaje automático clásico y potente que aprende de la información recibida recientemente.

¿Puede dar un ejemplo de cuándo puede ocurrir este tipo de aprendizaje?

Por ejemplo, puede proporcionar un modelo de idioma con varios textos y un sentimiento, positivo o negativo, asociado con cada uno. Puede ir a presentar un modelo con texto que no haya visto antes y predecirá si es positivo o negativo en función de los ejemplos proporcionados.

¿Estás diciendo que el modelo está aprendiendo una técnica para aprender cosas nuevas?

Sí, es sorprendente, pero cierto. Impulsado simplemente por la presión de mejorar su objetivo de entrenamiento, que es predecir el futuro cercano, desarrolla una técnica que le permite, por ejemplo, aprender de las conversaciones con los usuarios. Este tipo de aprendizaje se denomina aprendizaje en contexto.

Todos estos modelos obtienen entrada de texto. ¿Puede describir cómo los transformadores utilizan esta información mínima para optimizar su potencia de salida?

Una forma de lograr esto, y nuestro artículo muestra que es una posibilidad probable, es aprender lo que llamamos un modelo del mundo que hace posibles las predicciones. Curiosamente, este aprendizaje tiene lugar dentro de un transformador ya entrenado. El aprendizaje normalmente requeriría cambiar las conexiones en la red neuronal del modelo. Hemos demostrado que el modelo de transformador de alguna manera puede simular el mismo proceso de aprendizaje dentro de su arquitectura neuronal fija.

¿Cómo aparece esta habilidad en los transformadores?

En nuestro artículo, planteamos la hipótesis de que la arquitectura del transformador tiene un sesgo de aprendizaje inductivo. Esto significa que su capacidad para desarrollar estos mecanismos de aprendizaje está implícitamente integrada en su diseño básico, incluso antes de que se entrene el modelo.

GPT-3, el modelo detrás de ChatGPT, tiene 175 mil millones de parámetros. ¿Cómo estudiar un sistema tan grande?

Hay varias maneras de tratar de entender estos sistemas. Algunos investigadores adoptan un enfoque psicológico y analizan las reacciones de los modelos cuando se enfrentan a pruebas estandarizadas o situaciones de conflicto como los dilemas morales. Estudiamos este sistema mecánicamente, como neurocientíficos, se podría decir. Llevando la analogía más allá, debido a que nuestro modelo se ejecuta en una computadora, pudimos registrar cada neurona y cada conexión en su red neuronal, algo que sería impensable al estudiar los cerebros biológicos de animales o humanos. Actualmente, el estudio de estos sistemas a nivel de neuronas individuales solo es posible mediante el estudio de fenómenos muy específicos en arquitecturas relativamente pequeñas.

¿Puede proporcionar más información sobre el sistema que utilizó en su artículo?

El transformador que usamos en nuestro estudio es aproximadamente idéntico a una arquitectura de transformador de uso común. En lugar de entrenar nuestro sistema con todos los textos en Internet, lo entrenamos con ejemplos de un problema simple conocido como regresión lineal. Dado que este problema y su solución se comprenden tan bien, pudimos comparar la solución conocida con lo que observamos dentro del transformador. Hemos confirmado que implementa un algoritmo de aprendizaje muy conocido y potente llamado gradiente.

¿Esperaría que surgieran otros comportamientos que son completamente nuevos para la informática?

Es posible. En nuestro caso, pudimos demostrar que el transformador no realizó simplemente un descenso de gradiente simple, sino una versión mejorada del mismo. Dos estudios independientes del MIT y UC Berkeley ahora han analizado el algoritmo que aprendió el transformador. El objetivo a largo plazo de esta línea de investigación podría ser determinar si los transformadores pueden descubrir algoritmos e incluso probar teoremas y hacer avanzar las matemáticas que aún no conocemos. Sería realmente extraordinario e innovador.

Más información:
Johannes von Oswald et al., Los transformadores aprenden en contexto por descenso de gradiente, arXiv (2022). DOI: 10.48550/arxiv.2212.07677

Sobre el diario:
arXiv


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *