Un nuevo método mejora el rendimiento de los sistemas de IA de transformadores de visión

Un nuevo método mejora el rendimiento de los sistemas de IA de transformadores de visión

Ilustración de (a) autoatención basada en reducción espacial y (b) módulo PaCa propuesto en aplicaciones de visión, donde (HW) representa el número de parches en la entrada donde H y W son alto y ancho respectivamente y M es un número pequeño predefinido de conglomerados (por ejemplo, M = 100). Préstamo: arXiv (2022). DOI: 10.48550/arxiv.2203.11987

Vision Transformers (ViT) son poderosas tecnologías de inteligencia artificial (AI) que pueden identificar o categorizar objetos en imágenes, pero existen desafíos importantes en términos de requisitos de potencia informática y transparencia en el proceso de toma de decisiones. Ahora, los investigadores han desarrollado una nueva metodología que aborda ambos desafíos al tiempo que mejora la capacidad de ViT para identificar, clasificar y segmentar objetos en imágenes.

Los transformadores se encuentran entre los modelos de inteligencia artificial más poderosos que existen. Por ejemplo, ChatGPT es una IA que usa una arquitectura de transformador, pero la entrada que se usa para entrenarla es un lenguaje. ViT es una IA basada en transformadores que se entrena con datos visuales. Por ejemplo, ViT se puede usar para detectar y categorizar objetos en una imagen, como identificar todos los automóviles o todos los peatones en una imagen.

Sin embargo, los ViT enfrentan dos desafíos.

Primero, los modelos de transformadores son muy complejos. En comparación con la cantidad de datos que ingresan a la IA, los modelos de transformadores requieren una potencia computacional significativa y consumen una gran cantidad de memoria. Esto es especialmente problemático con ViT ya que las imágenes contienen muchos datos.

En segundo lugar, es difícil para los usuarios entender exactamente cómo toman decisiones los ViT. Por ejemplo, es posible que haya entrenado a ViT para que reconozca perros en una imagen. Pero no está del todo claro cómo ViT determina qué es un perro y qué no. Según la aplicación, comprender el proceso de decisión de ViT, también conocido como interpretabilidad del modelo, puede ser muy importante.

La nueva metodología de ViT, denominada “Patch-to-Cluster Attention” (PaCa), aborda ambos desafíos.

“Estamos asumiendo el desafío de los requisitos informáticos y de memoria mediante el uso de técnicas de agrupación que permiten que la arquitectura del transformador identifique y se centre mejor en los objetos de la imagen”, dice Tianfu Wu, autor correspondiente del artículo sobre la tesis y profesor asociado de electricidad. e ingeniería informática en la Universidad Estatal de Carolina del Norte.

“La agrupación es donde la IA conecta secciones de una imagen en función de las similitudes que encuentra en los datos de la imagen. Esto reduce en gran medida los requisitos computacionales del sistema. Antes de la agrupación, los requisitos computacionales para ViT son cuadráticos. Por ejemplo, si el sistema divide una imagen dividida en 100 unidades más pequeñas, tendría que comparar las 100 unidades entre sí, lo que daría como resultado 10 000 funciones complejas”.

“Gracias a la agrupación, podemos hacer de este un proceso lineal en el que cada unidad más pequeña solo necesita compararse con un número predeterminado de grupos. Digamos que le dice al sistema que establezca 10 grupos; eso sería solo 1,000 funciones complejas, dice Wu.

“La agrupación también nos permite ver la interpretación de los modelos, porque podemos ver principalmente cómo se formaron los grupos. ¿Qué características encontró importantes al combinar estas secciones de datos? Y dado que la IA solo crea una pequeña cantidad de clústeres, podemos verlos con bastante facilidad”.

Los investigadores realizaron pruebas exhaustivas de PaCa, comparándola con dos ViT de última generación llamados SWin y PVT.

“Descubrimos que PaCa era superior a SWin y PVT en todos los sentidos”, dice Wu. “PaCa fue mejor en la clasificación de objetos en imágenes, mejor en la identificación de objetos en imágenes y mejor en la segmentación, esencialmente dibujando los límites de los objetos en las imágenes. También fue más eficiente, lo que significa que pudo completar estas tareas más rápido que otros ViT”.

“El siguiente paso para nosotros es ampliar PaCa entrenando en conjuntos de datos centrales más grandes”.

El documento ‘PaCa-ViT: aprendizaje de la atención de parche a clúster en transformadores de visión’ se presentará en la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones del 18 al 22 de junio en Vancouver, Canadá.

esta publicado el arXiv servidor de preimpresión.

Más información:
Ryan Grainger et al., PaCa-ViT: aprender a prestar atención entre parches y grupos en transformadores de visión, arXiv (2022). DOI: 10.48550/arxiv.2203.11987

Conferencia: cvpr2023.thecvf.com/

Sobre el diario:
arXiv


Proporcionado por la Universidad Estatal de Carolina del Norte


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *