Escalando el aprendizaje audiovisual sin etiquetas

Escalando el aprendizaje audiovisual sin etiquetas

Una nueva técnica de aprendizaje automático permite un aprendizaje multimodal más eficiente. Fuente: Lauren Hinkel/MIT-IBM Watson AI Lab, a través de Bing Create

Investigadores del MIT, MIT-IBM Watson AI Lab, IBM Research y otros han desarrollado una nueva técnica para analizar datos de audio y video sin etiquetar que podría mejorar el rendimiento de los modelos de aprendizaje automático utilizados en aplicaciones como el reconocimiento de voz y la detección de objetos. El trabajo combina dos arquitecturas de aprendizaje autosupervisado, aprendizaje contrastivo y modelado de datos enmascarados por primera vez para escalar tareas de aprendizaje automático como clasificar eventos en datos unimodales y multimodales sin necesidad de anotación, replicando así cómo los humanos entienden y perciben nuestro mundo. .

“La mayor parte del conocimiento humano se adquiere de forma autosupervisada porque no siempre recibimos señales de vigilancia y queremos un modelo de aprendizaje automático que tenga la misma capacidad”, dice Yuan Gong, becario postdoctoral en Ciencias de la Computación e Inteligencia Artificial del MIT. Laboratorio (CSAIL).

“En otras palabras, el aprendizaje autosupervisado a menudo forma la base del modelo inicial porque puede aprender de grandes cantidades de datos sin etiquetar. Luego puede usar el aprendizaje supervisado clásico o el aprendizaje por refuerzo para ajustar y modelar algo específico si lo desea”, dice Jim Glass, científico principal del MIT y miembro del MIT-IBM Watson AI Lab.

La técnica, llamada codificador automático enmascarado audiovisual de contraste (CAV-MAE), es un tipo de red neuronal que puede aprender a extraer y mapear representaciones ocultas significativas en un espacio multidimensional a partir de datos acústicos y visuales a través del aprendizaje de big data YouTube 10 Seconds audio and video clips Los investigadores dicen que la técnica es más efectiva que los enfoques anteriores porque modela explícitamente la relación entre los datos de audio y visuales de una manera que no lo hacen otros métodos.

Junto a Gong y Glass en el estudio están los estudiantes de doctorado Andrew Rouditchenko y Alexander H. Liu del MIT, el Dr. David Harwath. ’18 de la Universidad de Texas en Austin y Leonid Karlinsky y Hilde Kuehne, miembros del MIT-IBM Watson AI Lab. Kuehne también está afiliado a la Universidad Goethe de Frankfurt. El método fue presentado recientemente en Conferencia Internacional sobre Representación del Aprendizaje.

Un enfoque conjunto y coordinado

CAV-MAE funciona según el principio de ‘aprender por anticipación’ y ‘aprender por comparación’, dice Gong. Modelado de datos enmascarados, un método de predicción, toma video junto con una forma de onda de sonido coordinada, convierte el audio en un espectrograma y enmascara el 75% de ambos. Los datos desenmascarados se tokenizan y luego se alimentan a codificadores de audio y video separados antes de ingresar a un codificador/descodificador común donde se le pide al modelo que recupere los datos que faltan. La diferencia (pérdida de reconstrucción) entre la predicción reconstruida resultante y la combinación audiovisual original se usa luego para entrenar el modelo para un mejor rendimiento.

Un ejemplo de esto sería cubrir parte del video de piano y parte del espectrograma de música de piano, y luego pedirle al modelo que intente determinar la entrada enmascarada. Desafortunadamente, es posible que este método no capture el enlace entre el par de video y audio, mientras que el aprendizaje de contraste se aprovecha de esto, pero puede rechazar alguna información exclusiva de la modalidad, como el fondo del video.

El aprendizaje contrastivo tiene como objetivo mapear representaciones que son similares entre sí. Por ejemplo, el modelo intentará colocar diferentes datos de video y audio de diferentes loros juntos y más lejos de los pares de video y audio que tocan guitarras. De manera similar a la codificación automática enmascarada, los pares audiovisuales se pasan a codificadores de modalidad separados; sin embargo, los componentes de audio y visuales se almacenan por separado en un codificador común antes de que el modelo realice la combinación y la pérdida de contraste. De esta forma, el aprendizaje contrastivo trata de identificar las partes de cada audio o video que son más relevantes para el otro.

Por ejemplo, si un video muestra a alguien hablando y el clip de audio correspondiente contiene un discurso, el codificador automático aprenderá a asociar los movimientos de la boca del hablante con las palabras que se pronuncian. Luego ajustará los parámetros del modelo para que estas entradas se representen cerca unas de otras. En última instancia, el método CAV-MAE combina ambas técnicas con múltiples flujos de datos múltiples hacia adelante con enmascaramiento como primer paso, codificadores específicos de modalidad y normalización de capas, lo que hace que las fortalezas de representación sean similares.

“Nosotros [then] Queríamos comparar el CAV-MAE propuesto con un modelo entrenado solo con un codificador automático enmascarado y un modelo entrenado solo con aprendizaje contrastivo, porque queremos demostrar que al combinar el codificador automático enmascarado y el aprendizaje contrastivo, podemos obtener alguna mejora en el rendimiento”. dice Gong, “y los resultados confirman nuestra hipótesis de que hubo una marcada mejora”.

Los investigadores probaron CAV-MAE, y su método sin pérdida de contraste ni codificador automático enmascarado, frente a otros métodos de búsqueda audiovisual de última generación y tareas de clasificación de eventos audiovisuales utilizando conjuntos de datos AudioSet estándar (20K y 2M) y VGGSound, clips cortos etiquetados y realistas. , que puede contener varios sonidos. La búsqueda audiovisual significa que el modelo ve el componente de audio o visual del par de consulta y busca el elemento que falta; la clasificación de eventos implica identificar acciones o sonidos en los datos, como una persona cantando o conduciendo un automóvil.

En general, encontraron que el aprendizaje contrastivo y el modelado de datos enmascarados son métodos complementarios. CAV-MAE fue capaz de superar las técnicas anteriores (con capacitación inicial totalmente autosupervisada) en aproximadamente un 2 % en el rendimiento de la clasificación de eventos frente a modelos con cálculos comparables y, lo que es más impresionante, modelos emparejados o superados con recursos computacionales de nivel industrial. El modelo del equipo se clasificó de manera similar a los modelos entrenados solo con una pérdida contrastante. Sorprendentemente, dice el equipo, la inclusión de datos multimodales en el entrenamiento inicial de CAV-MAE mejora significativamente el ajuste fino de la representación de modalidad única a través del aprendizaje supervisado (con algunos datos etiquetados) y el rendimiento en tareas de clasificación de eventos de solo audio.

Esto muestra que, al igual que las personas, la información multimodal proporciona un refuerzo adicional de “etiqueta suave” incluso para tareas de solo audio o video; por ejemplo, ayuda al modelo a comprender si está buscando una guitarra eléctrica o acústica, una señal de vigilancia más rica.

“Creo que a la gente le gusta la elegancia de este modelo para combinar información a través de diferentes flujos de audio y visuales. Se caracteriza por el contraste y la pérdida de reconstrucción y, en comparación con modelos que han sido evaluados con datos similares, claramente se desempeña muy bien en toda la gama de estas tareas”, dice Glass.

Basado en esto, “una cosa especial es que nuestro modelo puede clasificar y buscar, lo cual no es común”, agrega Gong. “Antes de este trabajo, estos métodos se usaban por separado, pero después de este trabajo, veo que la mayoría de los marcos de aprendizaje audiovisual usan la pérdida de contrato y el codificador automático enmascarado juntos, ya sea implícita o explícitamente”.

Llevando la ciencia audiovisual autosupervisada a nuestro mundo

Los investigadores ven su contribución del codificador automático enmascarado audiovisual de contraste (CAV-MAE) como un hito importante y un paso adelante para las aplicaciones que se mueven cada vez más de la modalidad única a la modalidad múltiple y que requieren o utilizan la fusión audiovisual. Tienen la hipótesis de que algún día esto podría usarse para reconocer actividades en campos como el deporte, la educación, el entretenimiento, los vehículos motorizados y la seguridad pública. También puede algún día expandirse a otras modalidades.

Por el momento, el hecho de que “esto sea solo para datos audiovisuales puede ser una limitación, pero nuestro objetivo es el aprendizaje multimodal, que es la tendencia del aprendizaje automático”, dice Gong. “Como humanos, tenemos multimodalidad, tenemos olfato, tenemos tacto, muchas más cosas que solo audiovisuales. Entonces, cuando estamos tratando de construir IA, estamos tratando de imitar a los humanos de alguna manera, no necesariamente desde una perspectiva biológica, y este método podría [potentially be] generalizado a otras modalidades inexploradas”.

A medida que los modelos de aprendizaje automático juegan un papel cada vez más importante en nuestras vidas, técnicas como esta serán cada vez más valiosas.

Más información:
Yuan Gong et al., Autocodificador audiovisual contrastivo enmascarado. openreview.net/pdf?id=QPtMRyk5rb

Proporcionado por el Instituto de Tecnología de Massachusetts


Esta historia ha sido republicada por cortesía de MIT News (web.mit.edu/newsoffice/), un popular sitio de noticias sobre investigación, innovación y enseñanza del MIT.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *