Las computadoras tienen dos habilidades notables con respecto a las imágenes: pueden identificarlas y regenerarlas. Históricamente, estas funciones han sido distintas, al igual que las distintas actividades de un chef que es bueno para crear comida (generación) y un conocedor que es bueno para probar la comida (reconocimiento).
Sin embargo, uno no puede dejar de preguntarse: ¿qué se debe hacer para orquestar una conexión armoniosa entre estas dos habilidades distintas? Tanto el chef como el conocedor comparten una comprensión común del sabor de la comida. De manera similar, un sistema de visión unificado requiere una comprensión profunda del mundo visual.
Ahora, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han entrenado el sistema para inferir las partes faltantes de una imagen, lo que requiere una comprensión profunda del contenido de la imagen. Al llenar con éxito los vacíos, el sistema, conocido como codificador generativo enmascarado (MAGE), logra dos objetivos simultáneamente: identificar con precisión las imágenes y crear nuevas que sean sorprendentemente similares a la realidad.
Este sistema de doble propósito permite innumerables aplicaciones potenciales, como identificar y clasificar objetos en imágenes, aprender rápidamente a partir de ejemplos mínimos, crear imágenes en condiciones específicas, como texto o aula, y mejorar imágenes existentes.
A diferencia de otras técnicas, MAGE no funciona con píxeles sin procesar. En cambio, convierte las imágenes en los llamados “tokens semánticos”, que son versiones compactas pero abstractas de secciones de imágenes. Piense en estas fichas como pequeñas piezas de rompecabezas, cada una de las cuales representa una pieza de una pintura original de 16×16. Así como las palabras forman oraciones, estos tokens crean una versión abstracta de una imagen que se puede usar para tareas de procesamiento complejas mientras se preserva la información contenida en la imagen original. Dicho paso de tokenización se puede entrenar en un marco autosupervisado, lo que permite el entrenamiento previo de grandes conjuntos de datos de imágenes sin etiquetar.
Ahora la magia comienza cuando MAGE usa “modelado de fichas enmascaradas”. Oculta aleatoriamente algunos de estos tokens, creando un rompecabezas incompleto, y luego entrena una red neuronal para llenar los vacíos. De esta forma, aprende tanto a comprender patrones en una imagen (reconocimiento de imágenes) como a generar otros nuevos (generación de imágenes).
“Una de las características sorprendentes de MAGE es la estrategia de enmascaramiento variable durante el entrenamiento previo, lo que le permite entrenar para el desempeño de tareas, la generación de imágenes o el reconocimiento dentro del mismo sistema”, dice el Dr. Tianhong Li. estudiante de ingeniería eléctrica y ciencias de la computación en MIT, una filial de CSAIL, y autora principal del trabajo de investigación. “La capacidad de MAGE para trabajar en un ‘espacio simbólico’ en lugar de un ‘espacio de píxel’ da como resultado imágenes nítidas, detalladas y de alta calidad, así como representaciones de imágenes semánticamente ricas. Con suerte, esto puede allanar el camino para modelos de visión por computadora avanzados e integrados”.
Además de la capacidad de generar imágenes realistas desde cero, MAGE también te permite generar imágenes condicionales. Los usuarios pueden especificar ciertos criterios para las imágenes que desean que MAGE genere y la herramienta preparará la imagen adecuada. También es capaz de realizar tareas de edición de imágenes, como eliminar elementos de una imagen manteniendo una apariencia realista.
Las tareas de reconocimiento son otro punto fuerte de MAGA. Con la capacidad de entrenar previamente en grandes conjuntos de datos sin etiquetar, puede clasificar imágenes usando solo representaciones entrenadas. Además, sobresale en el aprendizaje de algunas tomas, logrando resultados impresionantes en grandes conjuntos de datos de imágenes como ImageNet con solo unos pocos ejemplos etiquetados.
La validación del rendimiento de MAGE fue impresionante. Por un lado, estableció nuevos récords en la generación de nuevas imágenes, superando a los modelos anteriores con una mejora significativa. MAGE, por otro lado, superó las tareas de reconocimiento con un 80,9 % de precisión en el sondeo lineal y un 71,9 % de precisión en 10 disparos en ImageNet (lo que significa que identificó correctamente las imágenes el 71,9 % de las veces, solo tenía 10 ejemplos marcados de cada clase).
A pesar de sus fortalezas, el equipo de investigación reconoce que el trabajo sobre MAGE está en curso. El proceso de convertir imágenes en fichas conduce inevitablemente a la pérdida de cierta información. Están ansiosos por explorar formas de comprimir imágenes sin perder detalles importantes en trabajos futuros. El equipo también tiene la intención de probar MAGE en conjuntos de datos más grandes. La exploración futura podría incluir el entrenamiento MAGE en conjuntos de datos más grandes y sin etiquetar, lo que podría conducir a un rendimiento aún mejor.
“Lograr la generación de imágenes y el reconocimiento de imágenes en un solo sistema ha sido nuestro sueño durante mucho tiempo. MAGE es un estudio innovador que explota con éxito la sinergia de estas dos tareas y las lleva a un nivel de vanguardia en un solo sistema”, dice Huisheng Wang, ingeniero de software sénior para personas e interacciones en Investigación e Inteligencia de Máquinas de Google. división, que no participó en este estudio.”Este sistema innovador tiene una amplia aplicación y podría inspirar mucho trabajo futuro en el campo de la visión artificial”.
Los resultados de la investigación se publican en el sitio web. arXiv servidor de preimpresión.
Más información:
Tianhong Li et al., MAGE: codificador generativo enmascarado para unificar el aprendizaje de representación y la síntesis de imágenes, arXiv (2022). DOI: 10.48550/arxiv.2211.09117
Esta historia ha sido republicada por cortesía de MIT News (web.mit.edu/newsoffice/), un popular sitio de noticias sobre investigación, innovación y enseñanza del MIT.