Ventana de carro

Ventana de carro

Fuente: Unsplash/CC0 Dominio público

Los investigadores de RIKEN han demostrado que una ligera modificación de los algoritmos que normalmente se utilizan para mejorar las imágenes puede aumentar drásticamente las capacidades de reconocimiento de imágenes de la computadora en aplicaciones que van desde automóviles sin conductor hasta avatares cibernéticos.

A diferencia de la mayoría de los expertos en inteligencia artificial (IA), Lin Gu del Centro RIKEN para el Proyecto de Inteligencia Avanzada comenzó su carrera como terapeuta. Esta experiencia le dio una visión única de la variación de escala, un problema clave que enfrenta la visión por computadora, que se relaciona con la dificultad de detectar con precisión objetos en diferentes escalas en una imagen. Dado que la mayoría de los sistemas de IA se entrenan con imágenes de alta resolución, las imágenes realistas de baja calidad con elementos borrosos o distorsionados presentan un desafío para los algoritmos de reconocimiento.

La situación le recordó a Gu el síndrome de Alicia en el País de las Maravillas, una condición de visión distorsionada que hace que los objetos parezcan más pequeños o más grandes de lo que realmente son. “La visión humana es de magnitud constante, lo que significa que percibimos objetos del mismo tamaño independientemente de cómo cambie la imagen en la retina”, dice Gu. “A diferencia de los algoritmos de visión por computadora existentes, carece de la estabilidad de Alice”.

Ahora, inspirados en las técnicas de reconstrucción del hipocampo que usa el cerebro para formar recuerdos, Gu y sus colegas han desarrollado un modelo que reduce aleatoriamente la resolución, el desenfoque y el ruido de una imagen de alta resolución, buscando características que permanecen iguales cuando se repite el cambio. . El estudio fue publicado en Visión artificial – ECCV 2022.

Al aprender de los datos generados, el algoritmo puede realizar un autoaprendizaje: ayudar a otros algoritmos de procesamiento de imágenes a aprender qué objetos hay en la imagen y dónde están, sin intervención humana. El resultado: un método computacionalmente más eficiente para codificar y restaurar detalles críticos de la imagen.

“En los métodos típicos de aprendizaje autosupervisado, los datos de entrenamiento se modifican enmascarando parte de la imagen o cambiando el contraste antes de aprender la señal de supervisión”, explica Gu. “Por primera vez, proponemos utilizar la resolución como guía para el autocontrol”.

Más allá de las aplicaciones típicas de visión por computadora, Gu señala que una representación perceptiva constante será una parte fundamental de la tecnología cyborg y avatar. Como ejemplo, cita su participación en un proyecto futurista de agencias científicas japonesas para crear una versión digital realista de un ministro del gobierno que pueda interactuar con los ciudadanos.

“Para un mecanismo de memoria artificial, las representaciones que son invariantes a los cambios en la resolución pueden actuar como una piedra angular”, dice Gu. “Estoy colaborando con neurocientíficos en RIKEN para investigar la relación entre una representación constante perpetua artificial y una representación real en el cerebro”.

El método también se utiliza en imágenes de terahercios, una técnica emergente de imágenes no destructivas con un gran potencial en biomedicina, seguridad y caracterización de materiales. “En colaboración constante con el equipo de Michael Johnston en la Universidad de Oxford, estamos desarrollando la próxima generación de dispositivos de imágenes de terahercios, utilizando inteligencia artificial para mejorar su calidad y resolución”, dice Gu.

Más información:
Ziteng Cui et al., Exploración de pistas de resolución y degradación como señal autosupervisada para la detección de objetos de baja calidad, Visión artificial – ECCV 2022 (2022). DOI: 10.1007/978-3-031-20077-9_28

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *