
Visualización del método SimPLE. La figura muestra el espacio incrustado de oraciones naturales y los diferentes colores representan diferentes etiquetas predichas. Cada muestra de datos está marcada con una gran cantidad de desechos aleatorios, y usamos el algoritmo SETRED para detectar pseudoetiquetas poco confiables. La etiqueta final se vota en función de ciertas solicitudes. Préstamo: arXiv (2023). DOI: 10.48550/arxiv.2305.17197
Sócrates dijo una vez: “No es el tamaño de las cosas lo que realmente importa, sino la calidad. Porque es en la naturaleza de la sustancia, no en su volumen, donde se encuentra el verdadero valor”.
Dile eso a los grandes modelos de lenguaje. Pero, ¿el tamaño siempre importa? Una pregunta que invita a la reflexión. En un panorama tecnológico deslumbrante con grandes modelos de lenguaje que ocupan un lugar central, los investigadores de MIT CSAIL creen que los modelos más pequeños no deben dejarse de lado, especialmente para los productos basados en lenguaje natural ampliamente utilizados en la industria.
Con este fin, desarrollaron un enfoque para abordar los problemas de ineficiencia y privacidad de larga data asociados con los grandes modelos de IA basados en texto. Un modelo consciente de la lógica que supera 500 veces a sus contrapartes en algunas tareas de comprensión del idioma sin anotaciones generadas por humanos, mientras mantiene la privacidad y la confiabilidad con un alto rendimiento. Su estudio se publica en arXiv servidor de preimpresión.
Los modelos de lenguaje grande que han mostrado algunas habilidades prometedoras en lenguaje, gráficos y generación de código son computacionalmente costosos, y sus requisitos de datos pueden representar un riesgo de fuga de privacidad cuando se usan API de transferencia de datos. Históricamente, los modelos más pequeños han sido menos eficientes, especialmente en tareas multitarea y poco supervisadas, en comparación con sus contrapartes más grandes.
Entonces, ¿qué ayuda a que estos modelos más pequeños sean tan poderosos? Algo llamado “inferencia de texto”, una forma de ayudar a estos modelos a comprender varias tareas de lenguaje en las que si una oración (premisa) es verdadera, es probable que la otra oración (hipótesis) también lo sea. Por ejemplo, si la suposición es “todos los gatos tienen cola”, entonces la hipótesis “los gatos atigrados tienen cola” se derivaría de la premisa.
Este concepto se utiliza para entrenar el “modelo de compromiso”, que ha demostrado ser menos sesgado que otros modelos de lenguaje de la investigación anterior del equipo. Luego crearon “pistas” que los modelos podrían usar para averiguar si una oración o frase en particular implicaba cierta información de acuerdo con diferentes tareas. Este método mejoró la capacidad del modelo para adaptarse a diferentes tareas sin entrenamiento adicional, lo que se conoce como adaptación de disparo cero.
En el campo de la “comprensión del lenguaje natural”, existen diversas aplicaciones que dependen de determinar la relación entre dos fragmentos de texto. Por ejemplo, en una clasificación de sentimiento, una afirmación como “Creo que la película es buena” puede inferirse o deducirse de una reseña de una película que dice “Me gusta la trama y la actuación es excelente”, lo que indica un sentimiento positivo.
Otra es la clasificación de noticias, donde el tema de un artículo de noticias se puede inferir de su contenido. Por ejemplo, una declaración como “El artículo de noticias es sobre deportes” podría incluirse en el artículo si el contenido principal del artículo es sobre un juego de la NBA. La idea clave fue que muchas tareas de comprensión del lenguaje natural existentes se pueden transformar en una tarea de implicación (es decir, razonamiento lógico en lenguaje natural).
“Nuestra investigación tiene como objetivo mejorar la capacidad de los programas informáticos para comprender y procesar el lenguaje natural, la forma en que las personas hablan y escriben. Nuestros modelos de implicación autodidactas con 350 millones de parámetros, sin etiquetas generadas por humanos, superan a los modelos de lenguaje supervisado en 137 a 175 mil millones de parámetros”, dijo Hongyin Luo, asociado postdoctoral en MIT CSAIL, autor principal.
“Esto tiene el potencial de cambiar el panorama de la IA y el aprendizaje automático al proporcionar una solución de modelado de lenguaje más escalable, confiable y rentable”, dice Luo. “Al demostrar que los modelos más pequeños pueden funcionar al mismo nivel que los más grandes en términos de comprensión del lenguaje, este trabajo allana el camino para tecnologías de IA más sostenibles y que protegen la privacidad”.
El equipo descubrió que podían mejorar aún más el rendimiento del modelo mediante el uso de una técnica llamada “autoaprendizaje”, en la que el modelo usa sus propias predicciones para aprender, aprendiendo con éxito sin supervisión humana y datos de entrenamiento adicionales anotados. El método de autoaprendizaje mejoró significativamente el rendimiento en una variedad de tareas, incluido el análisis de sentimientos, la respuesta a preguntas y la clasificación de mensajes. Superó tanto a LaMDA como a FLAN de Google en términos de capacidades de disparo cero, modelos GPT y otros algoritmos supervisados.
Sin embargo, uno de los desafíos del autoaprendizaje es que el modelo a veces puede generar etiquetas incorrectas o ruidosas que degradan el rendimiento. Para superar esto, desarrollaron un nuevo algoritmo llamado “SimPLE” (Simple Pseudo-Label Editing), un proceso para ver y modificar pseudo-etiquetas realizadas en las rondas iniciales de aprendizaje. La corrección de cualquier caso mal etiquetado mejoró la calidad general de las etiquetas autogeneradas. Esto no solo hizo que los modelos fueran más efectivos para comprender el idioma, sino también más confiables cuando se enfrentaron con datos contradictorios.
Como ocurre con la mayoría de los estudios, existen algunas limitaciones. El autoaprendizaje en tareas de clasificación de clases múltiples no funcionó tan bien en tareas de NLU binarias, lo que indica un desafío en la aplicación de modelos de implicación a tareas de opción múltiple.
“Esta investigación demuestra una manera eficiente y efectiva de entrenar modelos de lenguaje extenso (LLM) mediante la formulación de tareas de comprensión del lenguaje natural como problemas basados en el contexto y el uso de autoaprendizaje de pseudoetiquetado para incorporar grandes cantidades de datos textuales sin etiquetar en el proceso de aprendizaje”. agrega el profesor del MIT e investigador principal CSAIL James Glass, quien también es el autor del artículo.
“Mientras que el campo de LLM está experimentando cambios rápidos y dramáticos, esta investigación muestra que es posible crear modelos de lenguaje relativamente compactos que funcionan muy bien en tareas de prueba de comprensión en comparación con sus pares de aproximadamente el mismo tamaño, o incluso modelos de lenguajes mucho más grandes. ”.
“La tarea de vinculación es un proxy popular para evaluar la ‘comprensión’ de un modelo de IA de un contexto dado”, dice Leonid Karlinsky, investigador asociado del MIT-IBM Watson AI Lab. “Se usa en muchas áreas para analizar modelos con entradas monomodales, como LLM, y entradas multimodales, como VLM, lo que simplifica la tarea de responder la pregunta de un contexto de entrada dado a un problema de clasificación binaria. contexto implican una cierta conclusión (por ejemplo, texto) o no? Este artículo hace dos contribuciones a este espacio. En primer lugar, propone una forma de mejorar el rendimiento de la NLU de disparo cero (sin ajustes adicionales) y la resistencia al ataque del enemigo ajuste con tareas resultantes sintetizadas (especializadas) generadas para la tarea NLU original. En segundo lugar, ofrece un método SimPLE autosupervisado que incluye pseudoetiquetado y filtrado basado en la confianza para mejorar aún más el rendimiento de las NLU LLM grandes.
“NLU es un módulo clave para sistemas de IA industrial efectivos”, dice Daniel Li, jefe de investigación de inteligencia artificial en Facebook. “Los modelos NLU tradicionales dependen de la tarea y se entrenan con una gran cantidad de datos humanos anotados. Este trabajo muestra resultados emocionantes y prometedores para un modelo robusto, de autoaprendizaje y computacionalmente eficiente que es versátil en una amplia gama de tareas de NLU”.
Luo y Glass escribieron el artículo con el miembro de CSAIL y profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, Yoon Kim. Sus trabajos serán presentados en Reunión de la Asociación de Lingüística Computacional en Toronto, Canadá este julio.
Más información:
Jiaxin Ge et al., Implicación como autoaprendizaje sólido, arXiv (2023). DOI: 10.48550/arxiv.2305.17197
Proporcionado por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT