Representación de imágenes 3D a partir de reflejos oculares mediante NeRF

Representación de imágenes 3D a partir de reflejos oculares mediante NeRF

Reconstrucción del campo de radiación mediante reflejos oculares. El ojo humano es altamente reflexivo. Mostramos que a partir de una secuencia de fotogramas que registran una cabeza en movimiento, podemos reconstruir y representar una escena en 3D de lo que una persona está observando, usando solo los reflejos de sus ojos. Préstamo: arXiv (2023). DOI: 10.48550/arxiv.2306.09348

La visión depende de que la luz entre en los ojos a través de los tejidos transparentes de la córnea, la pupila y el cristalino. Cuando la luz llega a la retina, los fotorreceptores producen señales y las transmiten a través del nervio óptico al cerebro, donde se forma una imagen. Parte de esta luz que ingresa al ojo se refleja de regreso al mundo por la delgada capa altamente reflectante de líquido que cubre la córnea.

Investigadores de la Universidad de Maryland pudieron capturar esta luz reflejada y extraer un modelo 3D del entorno. En un artículo en un servidor de preimpresión arXivtitulado “Ver el mundo a través de tus ojos”, el equipo describe los métodos utilizados para capturar los reflejos de los ojos y convertirlos en representaciones 3D consistentes utilizando un algoritmo de representación visual de IA especialmente entrenado llamado NeRF.

Neural Radiance Field (NeRF) es una red neuronal de IA que puede generar nuevas vistas continuas de escenas 3D complejas a partir de múltiples imágenes 2D. Por lo general, a partir de docenas de imágenes fijas desde diferentes ángulos, NeRF puede generar una representación 3D con suficiente profundidad y detalle para ser casi indistinguible del video que puede moverse alrededor de un objeto o espacio.

Los esfuerzos actuales del equipo de Maryland comienzan con múltiples imágenes de una cámara de alta resolución colocada en una posición fija, enfocando a una persona en movimiento, mirando a la cámara, enmarcada como una foto de pasaporte o licencia de conducir. Cuando se amplía el reflejo, una imagen especular del campo de visión es visible en el ojo del sujeto y los objetos en el área son reconocibles.

Hay todo tipo de artefactos oculares en la imagen, complejidad de la textura del iris y reflejos identificables de baja resolución capturados en cada imagen. Para eliminar el iris de las imágenes, se realizó la descomposición de texturas entrenando un mapa de texturas 2D que aprende la textura del iris y la elimina.

Utilizando la geometría de la córnea, que es aproximadamente la misma en todos los adultos, se realizaron cálculos para rastrear exactamente hacia dónde miraban sus ojos. También le permite especificar el ángulo de la cámara, trazar las coordenadas de las imágenes en la geometría curva y establecer la dirección de visión para NeRF AI para su uso posterior para reconstruir la representación 3D. A pesar de las sutiles imprecisiones en la localización de la córnea y las estimaciones de la geometría, el método logró reconstruir la escena.

Se utilizaron luces de área colocadas a los lados de la persona (fuera del marco) para iluminar el objeto de interés frente a él. Se le pidió a la persona en la foto que se moviera en el campo de visión de la cámara mientras tomaba varias fotos.

Al probar el método en el ojo humano, puede ver una resolución de representación de imagen muy modesta, pero en representación 3D con un mapa de profundidad.

En una prueba sintética más idealizada usando un ojo artificial frente a una imagen digital, se obtuvo una imagen más obvia debido a la mejor resolución del mapeo 3D.

La tercera prueba aplicó este método para capturar imágenes de reflejos oculares de los videos musicales de Miley Cyrus y Lady Gaga en un intento de reconstruir lo que observan mientras filman sus videos.

La imagen del ojo de Miley Cyrus parece ser una cuadrícula de luz LED, que encajaría cuando derrama una lágrima en una película, y mirar una luz brillante puede ayudar a lograr el efecto deseado. Hay algo en el ojo de Lady Gaga que puede interpretarse como una cámara en un trípode, pero la imagen es borrosa.

En los dos escenarios de videos musicales que probamos, la estrella de rock es probablemente la única parte bien iluminada del estudio porque las luces, la cámara y la acción son el foco. En situaciones más mundanas, como un chat de Zoom o una serie de publicaciones de selfies, la iluminación puede ser más propicia para recopilar información sobre su entorno.

Más información:
Hadi Alzayer y otros, Ver el mundo a través de tus ojos, arXiv (2023). DOI: 10.48550/arxiv.2306.09348

Sitio web del proyecto: mundo-desde-ojos.github.io/

Sobre el diario:
arXiv


© 2023 Ciencia X Red

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *