por Beijing Zhongke Journal Publishing Co.

La arquitectura de flujo único se refiere a elementos de texto y visuales que se combinan y luego se alimentan en un solo bloque transformador como se muestra en la Fig. 1(a). La arquitectura de doble flujo se refiere al hecho de que el texto y los elementos visuales no se combinan entre sí, sino que se envían de forma independiente a dos bloques transformadores diferentes, como se muestra en la Fig. 1(b). Fuente: Beijing Zhongke Journal Publishing Co. Limitado.
En un artículo publicado en Investigación de inteligencia artificial, un equipo de investigadores investigó si los modelos previamente entrenados podrían aplicarse a tareas multimodales y lograron avances significativos. Este artículo revisa los avances recientes y las nuevas fronteras en la capacitación inicial del lenguaje visual (VLP), incluida la capacitación inicial de imagen a texto y video-texto.
Para dar a los lectores una mejor idea general del VLP, los investigadores primero revisaron los avances recientes en cinco aspectos: extracción de características, arquitectura del modelo, objetivos de entrenamiento previo, conjuntos de datos de entrenamiento previo y tareas de seguimiento. Luego detallan modelos VLP específicos. Finalmente, discuten las nuevas fronteras en el VLP.
Hacer que las máquinas reaccionen de forma similar a los humanos ha sido un objetivo constante de los investigadores de inteligencia artificial. Para permitir que las máquinas perciban y piensen, los investigadores proponen una serie de tareas relacionadas, como el reconocimiento facial, la comprensión lectora y el diálogo hombre-máquina, para entrenar y evaluar la inteligencia de las máquinas en un aspecto específico. Específicamente, los expertos en el dominio construyen manualmente conjuntos de datos estándar y luego entrenan y evalúan modelos apropiados a partir de ellos.
Sin embargo, debido a las limitaciones de las tecnologías asociadas, a menudo es necesario aprender de grandes cantidades de datos etiquetados para llegar a un modelo mejor y más eficiente. El reciente advenimiento de modelos previos al entrenamiento basados en la estructura del transformador ha aliviado este problema. Primero se entrenan previamente a través del aprendizaje autosupervisado, que generalmente utiliza tareas auxiliares (objetivos de entrenamiento previo) para extraer señales de vigilancia de datos sin etiquetar a gran escala para entrenar el modelo, aprendiendo así representaciones universales.
Luego pueden lograr una eficiencia sorprendente ajustando solo una pequeña cantidad de datos de seguimiento etiquetados a mano. Desde la llegada de BERT en el procesamiento del lenguaje natural (NLP), han surgido varios modelos preescolares en el dominio unimodal. Un trabajo considerable ha demostrado que son beneficiosos para tareas unimodales adicionales y evitan entrenar un nuevo modelo desde cero.
Al igual que con el campo unimodal, el campo multimodal adolece del problema de la menor calidad de los datos etiquetados. Una pregunta natural es si el método de preentrenamiento anterior se puede aplicar a tareas multimodales. Los científicos han estudiado este problema y han logrado avances significativos.
En este artículo, los investigadores se centran en la corriente principal del entrenamiento inicial del lenguaje visual (VLP), incluido el entrenamiento inicial de imagen a texto y video-texto. El VLP aprende principalmente la correspondencia semántica entre diferentes modalidades a través del entrenamiento inicial en datos a gran escala. Por ejemplo, durante el entrenamiento inicial de imagen a texto, los investigadores esperan que el modelo asocie el “perro” en el texto con la apariencia del “perro” en las imágenes.
En el entrenamiento previo de video-texto, esperan que el modelo asigne objetos/acciones en el texto a objetos/acciones en el video. Para lograr este objetivo, los objetos VLP y la arquitectura del modelo deben diseñarse inteligentemente para permitir que el modelo explore las relaciones entre diferentes modalidades.
Para dar a los lectores una mejor idea general del VLP, los investigadores primero revisan exhaustivamente el progreso reciente y se centran en cinco aspectos importantes: extracción de características, arquitectura del modelo, objetivos de entrenamiento previo, conjuntos de datos de entrenamiento previo y tareas de seguimiento. Luego detallan modelos VLP (SOTA) de última generación específicos. Finalmente, concluyen el artículo y tienen una discusión extensa sobre las nuevas fronteras en el VLP.
Este artículo revisa los avances recientes de VLP en cinco aspectos.
Primero, los investigadores describen cómo los modelos VLP procesan y representan imágenes, videos y textos para lograr sus respectivas funciones mediante la introducción de diferentes modelos.
En segundo lugar, representan la arquitectura de los modelos VLP desde dos perspectivas diferentes: una es de flujo único frente a flujo doble desde una perspectiva de fusión multimodal, y la otra es solo un codificador frente a un codificador-decodificador desde una perspectiva de diseño arquitectónico general.
En tercer lugar, se brindó una introducción sobre cómo los investigadores entrenan modelos VLP utilizando varios objetivos de preentrenamiento que son cruciales para aprender la representación universal del lenguaje visual. Los objetivos previos al entrenamiento se resumen en cuatro categorías: finalización, forma, tiempo y tipos individuales.
En cuarto lugar, los investigadores dividen los conjuntos de datos de preentrenamiento en dos categorías principales: preentrenamiento de lenguaje visual y preentrenamiento de lenguaje de video. También brindan información detallada sobre conjuntos de datos previos al entrenamiento representativos para cada categoría. Finalmente, introducen los detalles y objetivos básicos de otras tareas en el VLP.
Luego, los investigadores resumen en detalle los modelos SOTA VLP específicos. Muestran un resumen de los principales modelos de VLP de imagen y texto y los principales modelos de VLP de video y texto en tablas. Luego, los investigadores proponen el desarrollo futuro de las VLP. Sugieren que, en base al trabajo existente, los VLP pueden desarrollarse aún más en los siguientes aspectos: incorporación de información acústica, aprendizaje con conocimiento y cognición, sintonización rápida, compresión y aceleración de modelos, entrenamiento previo fuera del dominio y arquitectura de modelos avanzada. Los investigadores esperan que su encuesta ayude a otros a comprender mejor los VLP e inspire nuevos trabajos en el campo.
Más información:
Fei-Long Chen et al., VLP: una encuesta sobre el entrenamiento previo del lenguaje visual, Investigación de inteligencia artificial (2023). DOI: 10.1007/s11633-022-1369-5
Proporcionado por Beijing Zhongke Journal Publishing Co.