Nueva herramienta explica cómo la IA 've' las imágenes y por qué podría confundir a un astronauta con una pala

Nueva herramienta explica cómo la IA 've' las imágenes y por qué podría confundir a un astronauta con una pala

Fuente: Universidad de Brown

¿Por qué los sistemas de IA pueden sobresalir en algunas tareas visuales, como reconocer caras, pero no hacer nada en otras, como clasificar una foto de un astronauta como una pala?

Al igual que el cerebro humano, los sistemas de IA se basan en estrategias de procesamiento y clasificación de imágenes. Y al igual que el cerebro humano, se sabe poco sobre la naturaleza exacta de estos procesos. Los investigadores del Instituto Carney para la Ciencia del Cerebro de la Universidad de Brown están progresando en la comprensión de ambos sistemas con el lanzamiento de un artículo reciente que ayuda a explicar la visión por computadora de una manera que los investigadores dicen que es accesible y más útil que los modelos anteriores.

“Tanto el cerebro humano como las redes neuronales profundas que alimentan los sistemas de inteligencia artificial se denominan cajas negras porque no sabemos exactamente qué sucede dentro”, dijo Thomas Serre, profesor de ciencias cognitivas, lingüísticas y psicológicas e informática en Brown. . “El trabajo que hacemos en el Centro de Ciencias Computacionales del Cerebro de Carney es tratar de comprender y caracterizar los mecanismos cerebrales involucrados en el aprendizaje, la vista y todo tipo de cosas, y resaltar las similitudes y diferencias en los sistemas de IA”.

Las redes neuronales profundas usan algoritmos de aprendizaje para procesar imágenes, dijo Serre. Están capacitados en grandes conjuntos de datos como ImageNet, que contiene más de un millón de imágenes descargadas de la web, organizadas en miles de categorías de objetos. El entrenamiento consiste principalmente en proporcionar datos al sistema de IA – explicó.

“No le decimos a los sistemas de IA cómo procesar las imágenes, por ejemplo, qué información extraer de las imágenes para poder clasificarlas”, dijo Serre. “El sistema de IA descubre su propia estrategia. Luego, los técnicos de TI evalúan la precisión de lo que han sido capacitados para hacer; por ejemplo, el sistema puede alcanzar un 90 % de precisión al discriminar miles de categorías de imágenes”.

Serre colaboró ​​con Brown Ph.D. El candidato Thomas Fel y otros científicos informáticos desarrollarán una herramienta que permita a los usuarios abrir la tapa de la caja negra de las redes neuronales profundas y explicar qué tipo de estrategias utilizan los sistemas de inteligencia artificial para procesar imágenes. El proyecto, llamado CRAFT – por Concept Recursive Activation FacTorization for Explainability – fue un proyecto conjunto con el Instituto de Inteligencia Artificial y Natural de Toulouse, donde Fel trabaja actualmente. Fue presentado este mes en Conferencia IEEE/CVF sobre Visión por Computador y Reconocimiento de Patrones en Vancouver, Canadá.

Serre compartió cómo CRAFT revela cómo la IA “ve” las imágenes y explicó la importancia crítica de comprender cómo un sistema de visión por computadora difiere de uno humano.

¿Qué muestra CRAFT sobre cómo la IA procesa las imágenes?

CRAFT proporciona la interpretación de representaciones visuales complejas y multidimensionales de objetos aprendidos por redes neuronales, utilizando herramientas modernas de aprendizaje automático para que sean más comprensibles para los humanos. Esto conduce a una representación de conceptos visuales clave utilizados por las redes neuronales para clasificar objetos. Como ejemplo, pensemos en un tipo de pez de agua dulce llamado tenca. construimos sitio web lo que permite a las personas ver y visualizar estos conceptos. Usando el sitio web, puede ver que el concepto de cuerda de IA incluye conjuntos de aletas de pescado, cabezas, colas, globos oculares y más.

Estos conceptos también revelan que las redes profundas a veces detectan desviaciones en los conjuntos de datos. Uno de los conceptos asociados con una cuerda es, por ejemplo, la cara de un hombre blanco, porque hay muchas fotos de pescadores deportivos en Internet sosteniendo peces que parecen cuerdas. (Sin embargo, el sistema aún puede diferenciar entre un hombre y un pez). En otro ejemplo, el concepto de fútbol dominante en las redes neuronales es la presencia de jugadores de fútbol en el campo. Probablemente esto se deba a que la mayoría de las imágenes de fútbol en Internet también muestran jugadores individuales, no solo la pelota en sí.

¿En qué se diferencia el método CRAFT de otras formas de entender la visión artificial?

Una forma de explicar la visión de la IA es a través de los llamados métodos de atribución, que utilizan mapas de calor para identificar las áreas más influyentes de una imagen que influyen en las decisiones de la IA. Sin embargo, estos métodos se centran principalmente en las áreas más visibles de la imagen: revelan “dónde” mira el modelo, pero no explican “qué” ve el modelo en esas áreas.

La mejora con respecto a los métodos anteriores que Thomas Fel introdujo en CRAFT no es solo determinar qué conceptos usa el sistema para ensamblar la imagen o qué ve el modelo en esas áreas, sino también cómo el sistema evalúa esos conceptos. En el ejemplo de la cuerda, el cuerpo del pez corresponde al 60% del peso total del concepto de cuerda. Entonces podemos averiguar cuánto peso le da el sistema de IA a estas sub-tomas. En otras palabras, es más probable que clasifique una imagen del cuerpo de una tenca como un pez que una imagen de un hombre blanco como un pez.

¿Cómo puede CRAFT explicar por qué los sistemas de visión de IA a veces cometen errores extraños?

En nuestro artículo, usamos CRAFT para explicar un error clásico de IA: cómo un sistema de IA entrenado en ImageNet clasificó incorrectamente una foto de un astronauta como una pala. Esto es lo que sucedió: un mapa de calor generado por el método de atribución clásico mostró que el sistema estaba mirando el centro de la imagen en forma de pala. El enfoque CRAFT destacó los dos conceptos más influyentes que influyeron en la decisión, junto con sus respectivas ubicaciones.

CRAFT sugirió que la red neuronal tomó la decisión porque identificó el concepto de “suciedad” que se encuentra comúnmente en los miembros de la clase de imagen “pala”, y el concepto de “pantalones de esquí” que suelen usar las personas que palean la nieve de su camino de entrada. Debería haber identificado el concepto correcto de los pantalones del astronauta, pero esa imagen de los pantalones probablemente nunca se vio durante el proceso de entrenamiento, por lo que el sistema no pudo hacer esa conexión.

¿Por qué es tan importante conocer los detalles de cómo una computadora ve las imágenes?

En primer lugar, ayuda a mejorar la precisión y el rendimiento de las herramientas de visión, como el reconocimiento facial. Esto hace que los sistemas de IA sean más confiables porque podemos entender la estrategia visual que utilizan. También ayuda a aumentar su seguridad frente a los ciberataques. Tomemos, por ejemplo, el concepto de ataques hostiles. El hecho es que puedes hacer pequeños cambios en las imágenes, como cambiar la intensidad de los píxeles de una manera que apenas es perceptible para los humanos, pero lo suficiente como para engañar por completo al sistema de IA.

En un ejemplo extremadamente importante, los investigadores han demostrado que simplemente agregando algunas pegatinas en un patrón específico a una señal de alto, pueden engañar a un vehículo autónomo para que lo procese como una señal de límite de velocidad, de modo que acelere en lugar de reducir la velocidad. abajo y parando. Causaría un caos total. Por lo tanto, debemos poder comprender por qué y cómo este tipo de ataques afectan a la IA para protegernos contra ellos.

¿Qué pueden enseñarnos los sistemas de visión de IA sobre los sistemas de visión humana?

Aprendimos que hay algo fundamentalmente diferente en la forma en que estas redes neuronales procesan imágenes en comparación con el cerebro humano: el cerebro humano no procesaría una señal de alto con pegatinas negras como una señal de límite de velocidad. Sin embargo, estos son sistemas increíblemente bien diseñados que a veces incluso superan a los humanos, por ejemplo, en tareas de reconocimiento facial. La mayor parte del trabajo que hacemos en nuestro laboratorio es comparar lo que es similar y lo que es diferente en estos sistemas.

Cada vez que somos capaces de encontrar las limitaciones de los sistemas de IA, recurrimos a la neurociencia y preguntamos: “¿Qué mecanismo cerebral falta en los sistemas de IA que sabemos que juega un papel fundamental en la capacidad de los humanos para resolver esta tarea de manera confiable y eficiente?” Y luego construimos Tomamos abstracciones de aprendizaje automático de este mecanismo y las alimentamos en un sistema de IA de red neuronal, y descubrimos que cuando equipamos los sistemas de IA con mecanismos inspirados en el cerebro humano, funcionan mucho mejor: son más robustos, más eficiente en el aprendizaje y más preciso con menos entrenamiento.

Desde una perspectiva de neurociencia, esta investigación nos ayuda a comprender mejor el cerebro humano y cómo estas diferencias entre los humanos y los sistemas de IA ayudan a los humanos, y podemos validar nuestras ideas de manera más fácil y segura que en el cerebro humano. Es muy difícil entender cómo el cerebro procesa la información visual. Se han desarrollado métodos para comprender cómo funcionan las neuronas y qué hacen, y gracias a los sistemas de inteligencia artificial, ahora podemos probar estas teorías y ver si estamos en lo cierto.

Las sinergias funcionan en ambos sentidos: la neurociencia nos da una buena inspiración para mejorar la inteligencia artificial. Pero el hecho de que estemos mejorando la IA en función de estos mecanismos de neurociencia también es una forma de validar los descubrimientos realizados en neurociencia e identificar los mecanismos clave de la inteligencia general, la inteligencia visual y más.

Escuchamos muchas preocupaciones sobre los sistemas de inteligencia artificial que son demasiado parecidos a los humanos. Pero parece que en lo que a visión se refiere, es buena, ¿no?

En muchos casos, hemos encontrado beneficios muy significativos para los humanos al combinar un sistema de visión de IA con un sistema de visión humano: los modelos que son más parecidos a los humanos se vuelven más confiables, confiables, resistentes a los ataques y menos propensos a hacer lo que tú no haces. Quiero que lo hagan.

¿Cuáles son los próximos pasos de esta investigación?

Es interesante ver cómo los sistemas de IA categorizan los objetos naturales, pero creo que en el futuro usaremos lo que hemos aprendido sobre la IA y la visión humana para ayudar a los sistemas de IA a resolver grandes problemas científicos que los humanos no pueden resolver en este momento. como diagnóstico de cáncer, reconocimiento de fósiles o exploración espacial. Será muy emocionante.

Más información:
Thomas Fel et al., CRAFT: el concepto de activación de factorización recursiva para aclaración (2023)

Proporcionado por la Universidad de Brown


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *