Generador de metaimágenes

En los últimos dos años, los generadores de imágenes impulsados ​​por IA se han vuelto más o menos mercantilizados gracias a la disponibilidad generalizada de tecnología y la disminución de las barreras técnicas. Han sido implementados por prácticamente todos los principales actores tecnológicos, incluidos Google y Microsoft, así como por innumerables nuevas empresas que buscan obtener una porción del pastel generativo de IA cada vez más lucrativo.

Eso no significa que sean consistentes cuando se trata de rendimiento, ni mucho menos. Si bien la calidad de los generadores de imágenes ha mejorado, el progreso ha sido gradual, a veces doloroso.

Pero Meta afirma haber hecho un gran avance.

Hoy Meta anunció CM3leon (“camaleón” en torpe empecemos a hablar), un modelo de IA que, según la compañía, logra un rendimiento de vanguardia en la generación de texto a imagen. CM3leon también tiene la distinción de ser uno de los primeros generadores de imágenes capaces de generar leyendas de imágenes, sentando las bases para modelos de comprensión de imágenes más capaces en el futuro, dice Meta.

“Con el poder de CM3leon, las herramientas de generación de imágenes pueden generar imágenes más consistentes que coincidan mejor con las indicaciones de entrada”, escribió Meta en una publicación de blog compartida con TechCrunch a principios de esta semana. “Creemos que el alto rendimiento de CM3leon en una variedad de tareas es un paso hacia la generación y comprensión de una imagen de mayor fidelidad”.

La mayoría de los generadores de imágenes modernos, incluidos DALL-E 2 de OpenAI, Imagen de Google y Stable Diffusion, se basan en un proceso llamado difusión para crear gráficos. En la difusión, el modelo aprende a sustraer gradualmente el ruido de una imagen inicial compuesta completamente de ruido, acercándola paso a paso al indicador objetivo.

Los resultados son impresionantes. Pero la difusión es computacionalmente intensiva, lo que hace que su operación sea costosa y lo suficientemente lenta como para hacer que la mayoría de las aplicaciones en tiempo real sean poco prácticas.

CM3leon, por otro lado, es un modelo transformador que utiliza un mecanismo llamado “atención” para ponderar la relevancia de entradas como texto o imágenes. Note y otras peculiaridades arquitectónicas de los transformadores pueden aumentar la velocidad de aprendizaje del modelo y hacer que los modelos sean más fáciles de paralelizar. En otras palabras, se pueden entrenar transformadores cada vez más grandes con un aumento significativo pero no inalcanzable en la potencia de cálculo.

Y CM3leon es parejo más más eficiente que la mayoría de los transformadores, afirma Meta, que requiere cinco veces menos potencia informática y un conjunto de datos de entrenamiento más pequeño que los métodos anteriores basados ​​en transformadores.

Curiosamente, hace unos años, OpenAI exploró los transformadores como una forma de generar una imagen utilizando un modelo llamado el GPT de la imagen. Pero finalmente abandonó esa idea en favor de la difusión, y pronto podría pasar a la “coherencia”.

Para entrenar a CM3leon, Meta utilizó un conjunto de datos compuesto por millones de imágenes con licencia de Shutterstock. La más poderosa de las varias versiones de CM3leon construida por Meta tiene 7 mil millones de parámetros, más del doble que DALL-E 2. (Los parámetros son las partes del modelo aprendidas de los datos de entrenamiento y esencialmente determinan la capacidad del modelo para resolver un problema, como la generación de texto o, en este caso, imágenes).

Una de las claves del mayor rendimiento de CM3leon es una técnica llamada sintonización supervisada, o SFT, por sus siglas en inglés. SFT se ha utilizado para entrenar modelos de generación de texto como ChatGPT de OpenAI con gran efecto, pero Meta teorizó que también podría ser útil para un dominio de imagen. De hecho, ajustar las instrucciones mejoró el rendimiento de CM3leon no solo en la generación de imágenes, sino también en la escritura de leyendas de imágenes, lo que le permitió responder preguntas sobre imágenes y editar imágenes con instrucciones de texto (por ejemplo, “hacer que el cielo sea azul claro”).

La mayoría de los generadores de imágenes luchan con objetos “complejos” y mensajes de texto que contienen demasiadas restricciones. Pero CM3Leon no lo hace, al menos no con tanta frecuencia. En un puñado de ejemplos seleccionados, Meta hizo que CM3Leon generara imágenes usando señales, como “Pequeño cactus con sombrero de paja y gafas de sol de neón en el desierto del Sahara”, “Primer plano de mano humana, modelo de mano”, “Personaje de anime mapache principal preparándose para una espada samurái de batalla épica” y “Señal de alto estilo fantasía con el texto “1991”.

A modo de comparación, ejecuté las mismas indicaciones en DALL-E 2. Algunos resultados fueron similares. Pero las imágenes de CM3Leon eran generalmente más cercanas a las pistas y más detalladas a mis ojos, siendo el marcado el ejemplo más obvio. (Hasta hace poco, los modelos de difusión funcionaban relativamente mal tanto con el texto como con la anatomía humana).

Generador de metaimágenes

Generador de metaimágenes.

DALL-E 2

DALL-E 2 resultados.

CM3Leon también puede entender instrucciones para editar imágenes existentes. Por ejemplo, con el mensaje “Generar una imagen de alta calidad de una ‘habitación con lavabo y espejo’ con una botella en la ubicación (199, 130)”, el modelo puede generar algo visualmente coherente y, como dice Meta, ” contextualmente apropiado ”: habitación, lavabo, espejo, botella y todo lo demás. DALL-E 2 pierde por completo los matices de dichas indicaciones, a veces omitiendo por completo los objetos especificados en la indicación.

Y, por supuesto, a diferencia de DALL-E 2, CM3leon puede seguir una serie de indicaciones para generar subtítulos cortos o largos y responder preguntas sobre una imagen en particular. Meta dice que en estas áreas el modelo se desempeñó mejor incluso que los modelos de subtítulos de imágenes especializados (por ejemplo, Flamingo, OpenFlamingo), aunque vio menos texto en los datos de entrenamiento.

Pero, ¿y los prejuicios? Se ha descubierto que los modelos de IA generativa, como DALL-E 2, refuerzan el sesgo social al generar imágenes de puestos de poder, como “CEO” o “director”, que son predominantemente hombres blancos. El meta deja esta pregunta sin respuesta y solo dice que CM3leon “puede reflejar cualquier desviación presente en los datos de entrenamiento”.

“A medida que crece la industria de la IA, los modelos generativos como CM3leon se vuelven más sofisticados”, escribe la compañía. “Si bien la industria aún se encuentra en las primeras etapas de comprensión y abordaje de estos desafíos, creemos que la transparencia será clave para acelerar el progreso”.

Meta no dijo si, o cuándo, planean lanzar CM3leon. Dada la controversia que rodea a los generadores de arte de código abierto, no aguantaría la respiración.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *