
Fuente: Pixabay/CC0 Dominio público
El equipo de Stanford ha desarrollado Sophia, una nueva forma de optimizar el entrenamiento previo de modelos de lenguaje grandes que es el doble de rápido que los enfoques actuales.
ChatGPT y otras aplicaciones que se basan en modelos de lenguaje extenso (LLM) están ganando un uso generalizado y atrayendo la atención de los medios. Pero algunas grandes empresas de tecnología dominan el espacio LLM porque la capacitación inicial de estos modelos es increíblemente costosa, con estimaciones de costos que comienzan en $ 10 millones y potencialmente alcanzan decenas o cientos de veces más.
“Los modelos de lenguaje grandes no son muy accesibles para organizaciones más pequeñas o grupos académicos”, dice Hong Liu, estudiante de posgrado en informática de la Universidad de Stanford.
Para cambiar esto, Liu y sus colegas se propusieron mejorar los métodos actuales de optimización de LLM. El resultado: un enfoque llamado Sophia que reduce a la mitad el tiempo de preparación para el entrenamiento. Los detalles de este enfoque se publican en el sitio web. arXiv servidor de preimpresión.
optimización optimización
Para optimizar mejor la capacitación introductoria de LLM, Liu y sus colegas, incluido el investigador postdoctoral de Stanford Zhiyuan Li, el ingeniero de investigación de Stanford David Hall, el profesor asistente de informática Tengyu Ma y el profesor asociado Percy Liang, utilizaron dos trucos. La primera, conocida como estimación de la curvatura, no es nueva, pero el equipo de Stanford encontró una manera de hacerla más eficiente.
Para comprender su enfoque, considere una línea de montaje de fábrica. Para operar de manera eficiente, el gerente de la fábrica debe optimizar la cantidad de pasos necesarios para convertir las materias primas en el producto final, y debe comprender y administrar adecuadamente la carga de trabajo en cada etapa de la línea.
Lo mismo se aplica a la formación inicial de LLM. Estos modelos tienen millones o incluso miles de millones de parámetros, que Liu compara con trabajadores de fábricas que persiguen los mismos objetivos. Una propiedad de estos parámetros es su curvatura, que Liu considera la velocidad máxima alcanzable que alcanzan a medida que se acercan a su objetivo final de un LLM pre-entrenado. En la metáfora de la fábrica, la curvatura es similar a la carga de trabajo de un trabajador de fábrica.
Si un programa de optimización puede estimar esta curvatura (carga de trabajo), puede hacer que la capacitación inicial de LLM sea más eficiente. El problema es que estimar la curvatura usando los métodos existentes es extremadamente difícil y costoso. “En realidad, es más costoso que hacer el trabajo real sin predecir la curvatura”, dice Liu. Esta es en parte la razón por la cual los enfoques actuales de vanguardia para optimizar el entrenamiento LLM inicial (Adam y sus variantes) renuncian al paso de estimación de la curvatura.
Aun así, Liu y sus colegas notaron la posible ineficiencia de los métodos anteriores que usaban la estimación de curvatura paramétrica: los investigadores anteriores actualizaron sus estimaciones de curvatura en cada paso de optimización. El equipo de Stanford se preguntó si este proceso podría optimizarse reduciendo la cantidad de actualizaciones.
Para probar esta idea, el equipo de Stanford diseñó a Sophia para estimar solo la curvatura de los parámetros cada 10 pasos más o menos. “Resultó ser una gran victoria”, dice Liu.
El segundo truco de optimización del equipo, llamado recorte, se ocupa de un problema relacionado: el problema de la estimación imprecisa de la curvatura. “Si la estimación es incorrecta, es como darle a la gente que trabaja duro aún más trabajo. Esto hace que la situación sea peor que si no hubiera ninguna evaluación”.
Recortar evita esto estableciendo un umbral o estimando la curvatura máxima. “En nuestra metáfora de fábrica, es como establecer un límite de carga de trabajo para todos los empleados”, dice Liu. Otra metáfora que se usa a menudo para la optimización es un paisaje de colinas y valles donde el objetivo es estar en el valle más bajo. Liu dice que sin podar, puedes aterrizar en una silla de montar entre dos montañas. “En optimización, ahí no es donde quieres estar”, dice.
Prueba de Sophia y ampliación
Liu y sus colegas usaron a Sophia para entrenar previamente a un LLM relativamente pequeño usando el mismo tamaño y configuración de modelo que se usó para crear el GPT-2 de OpenAI.
La combinación de estimación de curvatura y recorte de Sophia permitió la optimización del entrenamiento inicial de LLM para una transición suave al valle más bajo en la mitad del número de pasos y en la mitad del tiempo requerido por Adam.
“La adaptabilidad de Sophia la diferencia de Adam”, dice Liu. “A Adam le resulta más difícil lidiar con parámetros con curvaturas heterogéneas porque no puede predecirlos por adelantado”.
Liu también dice que, por primera vez en nueve años, alguien ha mostrado una mejora significativa con respecto a Adam en el entrenamiento inicial del modelo de lenguaje. “Esto podría significar una gran reducción en el costo de entrenar modelos grandes en el mundo real”. Él dice que a medida que los modelos crecen, las fortalezas de Sophia solo deberían aumentar.
A continuación, Liu y sus colegas esperan desarrollar un LLM más grande utilizando a Sophia. También espera que Sophia se aplique a otras áreas del aprendizaje automático, como los modelos de visión artificial o los modelos multimodales. “Se necesitaría algo de tiempo y recursos para mover a Sophia a un nuevo dominio, pero dado que es de código abierto, la comunidad ciertamente podría hacerlo”.
Más información:
Hong Liu et al., Sophia: un optimizador estocástico escalable de segundo orden para el entrenamiento inicial del modelo de lenguaje, arXiv (2023). DOI: 10.48550/arxiv.2305.14342