Desde cámaras hasta automóviles autónomos, muchas de las tecnologías actuales se basan en la IA para extraer significado de la información visual. La tecnología de inteligencia artificial actual se basa en redes neuronales artificiales, y la mayoría de las veces podemos confiar en estos sistemas de visión por computadora para ver las cosas de la manera en que las vemos, pero a veces fallan. Según investigadores del MIT e IBM, una forma de mejorar la visión por computadora es instruir a las redes neuronales artificiales en las que se basan para imitar intencionalmente la forma en que la red neuronal biológica del cerebro procesa las imágenes visuales.
Los investigadores, dirigidos por el profesor del MIT James DiCarlo, director de MIT Quest for Intelligence y miembro del MIT-IBM Watson AI Lab, mejoraron un modelo de visión artificial entrenándolo para que actúe como la parte del cerebro que los humanos y otros primates confiar para reconocer objetos. En mayo de este año, en la Conferencia Internacional de Representaciones de Aprendizaje, el equipo informó que cuando entrenaron una red neuronal artificial usando patrones de actividad neuronal en la corteza temporal inferior (TI) del cerebro, la red neuronal artificial pudo identificar mejor los objetos en las imágenes. que un modelo que carecía de este entrenamiento neuronal. Y las interpretaciones del modelo de las imágenes coincidían más con lo que la gente veía, incluso si las imágenes contenían distorsiones menores que dificultaban la tarea.
Comparación de circuitos neuronales
Muchas de las redes neuronales artificiales utilizadas para la visión por computadora ya se parecen a los circuitos cerebrales de múltiples capas que procesan la información visual en humanos y otros primates. Al igual que el cerebro, utilizan unidades similares a neuronas que trabajan juntas para procesar información. A medida que están capacitados para realizar una tarea específica, estos componentes en capas trabajan juntos y procesan gradualmente la información visual para realizar el trabajo, determinando, por ejemplo, si una imagen es de un oso, un automóvil o un árbol.
DiCarlo y otros han descubierto previamente que cuando estos sistemas de visión por computadora de aprendizaje profundo establecen formas efectivas de resolver problemas visuales, terminan con circuitos artificiales que funcionan de manera similar a los circuitos neuronales que procesan la información visual en nuestros cerebros. Esto significa que resultan ser modelos científicos sorprendentemente buenos de los mecanismos neuronales que subyacen a la visión en primates y humanos.
Esta similitud ayuda a los neurocientíficos a profundizar su comprensión del cerebro. Al demostrar formas de procesar información visual para crear imágenes significativas, los modelos computacionales sugieren hipótesis sobre cómo el cerebro podría realizar la misma tarea. A medida que los desarrolladores continúan refinando los modelos informáticos de la visión, los neurocientíficos han encontrado nuevas ideas para explorar en su propio trabajo.
“A medida que los sistemas de visión mejoran cada vez más en el mundo real, algunos de ellos se vuelven más parecidos a los humanos en el procesamiento interno. Es útil desde el punto de vista de la biología”, dice DiCarlo, quien también es profesor de ciencias del cerebro y cognitivas e investigador en el Instituto McGovern para la Investigación del Cerebro.
Ingeniería de una IA más parecida a un cerebro
Si bien su potencial es prometedor, los sistemas de visión artificial aún no son modelos perfectos de la visión humana. DiCarlo sospechó que una forma de mejorar la visión por computadora podría ser incorporar funciones específicas similares al cerebro en estos modelos.
Para probar la idea, él y sus colegas construyeron un modelo de computadora de la visión utilizando datos neuronales recopilados previamente de las neuronas de procesamiento de la visión en la corteza cerebral del mono, una parte clave de la vía visual ventral del primate involucrada en el reconocimiento de objetos, mientras que los animales vieron diferentes imágenes Más específicamente, Joel Dapello, graduado de la Universidad de Harvard y ex pasante de MIT-IBM Watson AI Lab; y Kohitij Kar, Profesor Asistente y Presidente de Investigación de Canadá (Neurociencia Visual) en la Universidad de York y científico visitante en el MIT; en colaboración con David Cox, vicepresidente de IBM Research de AI Models y director de IBM MIT-IBM Watson AI Lab; y otros investigadores de IBM Research y MIT pidieron a una red neuronal artificial que imitara el comportamiento de estas neuronas de procesamiento de visión de primates mientras la red aprendía a identificar objetos en una tarea estándar de visión por computadora.
“En efecto, le dijimos a la red: ‘por favor, resuelva esta tarea estándar de visión por computadora, pero también pido que la función de una de las capas neuronales simuladas en el interior sea lo más similar posible a la función de la capa neuronal biológica correspondiente”. ‘”, explica DiCarlo. “Le pedimos que hiciera ambas cosas lo mejor que pudiera”. Esto obligó a los circuitos neuronales artificiales a encontrar una forma diferente de procesar la información visual que el enfoque estándar de visión por computadora, dice.
Después de entrenar el modelo artificial con datos biológicos, el equipo de DiCarlo comparó su rendimiento con un modelo de red neuronal de tamaño similar entrenado sin datos neuronales, utilizando un enfoque de visión por computadora estándar. Descubrieron que la nueva capa de información basada en bioinformación del modelo era, según las instrucciones, una mejor opción para los datos neuronales de TI. Esto significa que para cada imagen probada, la población de neuronas TI artificiales en el modelo respondió de manera más similar a la población correspondiente de neuronas TI biológicas.
Los investigadores también encontraron que el modelo de TI también encajaba mejor con los datos de TI neural recopilados de otro mono, a pesar de que el modelo nunca había visto datos de ese animal, e incluso cuando esta comparación se evaluó en función de la respuesta de TI de ese mono a la nueva imágenes Esto indicó que el nuevo modelo informático de “adaptación neuronal” del equipo podría ser un modelo mejorado de la función neurobiológica de la corteza cerebral de los primates, un hallazgo interesante dado que anteriormente se desconocía si la cantidad de datos neuronales que ahora se pueden recopilar de la El sistema visual de los primates es capaz de dirigir directamente el desarrollo del modelo.
Con el nuevo modelo de computadora en la mano, el equipo preguntó si el procedimiento de ‘TI de ajuste neuronal’ también conduce a algún cambio en el rendimiento conductual general del modelo. De hecho, descubrieron que el modelo alineado neuralmente era más parecido a un humano en su comportamiento: tendía a categorizar correctamente los objetos en imágenes en las que los humanos también tenían éxito, y tendía a fallar cuando los humanos también fallaban.
Ataques enemigos
El equipo también descubrió que el modelo alineado neuralmente era más resistente a los “ataques de adversarios” que los desarrolladores usan para probar los sistemas de inteligencia artificial y visión por computadora. En la visión por computadora, los ataques del adversario introducen ligeras distorsiones en las imágenes con la intención de confundir a la red neuronal artificial.
“Digamos que tienes una foto que la modelo identifica como un gato. Como conoces el funcionamiento interno del modelo, puedes diseñar cambios muy pequeños en la imagen para que el modelo de repente piense que ya no es un gato, explica DiCarlo.
Estas distorsiones menores generalmente no engañan a las personas, pero los modelos de visión por computadora luchan con estos cambios. Una persona que mira a un gato sutilmente desfigurado aún informa de manera confiable y confiable que es un gato. Pero es más probable que los modelos estándar de visión por computadora confundan a un gato con un perro o incluso con un árbol.
“Debe haber algunas diferencias intrínsecas en la forma en que nuestros cerebros procesan las imágenes que hacen que nuestra visión sea más resistente a este tipo de ataques”, dice DiCarlo. Y, de hecho, el equipo descubrió que cuando hicieron que su modelo estuviera más alineado neuronalmente, se volvió más confiable e identificó correctamente más imágenes frente a los ataques enemigos. El modelo aún puede ser engañado por “ataques” más fuertes, pero también los humanos, dice DiCarlo. Su equipo ahora está explorando los límites de la resistencia a los ataques en humanos.
Hace unos años, el equipo de DiCarlo descubrió que también se podía hacer un modelo más resistente a los ataques de los adversarios mediante el diseño de la primera capa de una red artificial para imitar la capa de procesamiento visual inicial del cerebro. El siguiente paso clave es combinar estos enfoques: crear nuevos modelos que se alineen neuronalmente simultáneamente en múltiples capas de procesamiento visual.
El nuevo trabajo es una prueba más de que el intercambio de ideas entre la neurociencia y la informática puede impulsar el progreso en ambos campos. “Todos obtienen algo del emocionante ciclo positivo entre la inteligencia natural/biológica y la IA”, dice DiCarlo. “Aquí es donde los investigadores de inteligencia artificial y visión por computadora obtienen nuevas formas de lograr robustez, y los neurocientíficos y los científicos cognitivos obtienen modelos mecánicos más precisos de la visión humana”.
Más información:
Hacer coincidir el modelo y la representación de la corteza temporal inferior del macaco mejora el ajuste conductual del modelo al humano y la resistencia del oponente. openreview.net/attachment?id=SMYdcXjJh1q&name=pdf
Esta historia ha sido republicada por cortesía de MIT News (web.mit.edu/newsoffice/), un popular sitio de noticias sobre investigación, innovación y enseñanza del MIT.