Todos los días, se publican miles de millones de fotos y videos en varias aplicaciones de redes sociales. El problema con las fotos estándar tomadas con un teléfono inteligente o una cámara digital es que solo capturan la escena desde un cierto punto de vista. Pero cuando lo miramos en realidad, podemos movernos y observarlo desde diferentes puntos de vista. Los profesionales de TI están trabajando para brindar una experiencia de usuario inmersiva que les permita observar la escena desde diferentes ángulos, pero esto requiere equipo fotográfico especializado que no está fácilmente disponible para la persona promedio.
Para facilitar este proceso, el Dr. Nima Kalantari, profesor del Departamento de Ciencias de la Computación e Ingeniería de la Universidad A&M en Texas, y el estudiante de doctorado Qinbo Li han desarrollado un enfoque de aprendizaje automático que permitirá a los usuarios tomar una sola foto y usarla para generar nuevas vistas. etapa.
“La ventaja de nuestro enfoque es que ahora no estamos limitados a capturar la escena de cierta manera”, dijo Kalantari. “Podemos descargar y usar cualquier imagen en Internet, incluso una que tenga 100 años, y esencialmente devolverla a la vida y mirarla desde diferentes ángulos”.
Se publicaron más detalles de su trabajo en la revista. Asociación para la Transacción de Máquinas de Computación en Gráficos.
La síntesis de vistas es el proceso de generar nuevas vistas de un objeto o escena utilizando imágenes tomadas desde puntos de vista específicos. Para crear nuevas imágenes de vista, la información relacionada con la distancia entre los objetos en la escena se utiliza para crear una foto sintética tomada con una cámara virtual colocada en diferentes puntos de la escena.
En las últimas décadas se han desarrollado varios enfoques para sintetizar estas imágenes de vista novedosas, pero muchos requieren que el usuario capture manualmente varias fotos de la misma escena desde diferentes ángulos simultáneamente con configuraciones y hardware específicos, lo cual es difícil y requiere mucho tiempo. consumidor. Sin embargo, estos enfoques no fueron diseñados para generar nuevas imágenes de vista a partir de una sola imagen de entrada. Para simplificar el proceso, los científicos propusieron realizar el mismo proceso, pero con una sola imagen.
“Cuando tienes varias imágenes, puedes estimar la posición de los objetos en la escena a través de un proceso llamado triangulación”, dijo Kalantari. “Esto significa que se puede decir, por ejemplo, que hay una persona frente a la cámara con una casa detrás de ella y montañas detrás de ella. Esto es extremadamente importante para la síntesis de vistas. Pero cuando tienes una imagen, toda esta información debe deducirse de esa imagen que es un desafío “.
Con el reciente desarrollo del aprendizaje profundo, que es un subcampo del aprendizaje automático, donde redes neuronales artificiales Al aprender de grandes cantidades de datos para resolver problemas complejos, el problema de síntesis de la vista de una sola imagen ha atraído mucha atención. Aunque este enfoque es más accesible para el usuario, es una aplicación difícil para el sistema ya que no hay suficiente información para estimar la posición de los objetos en la escena.
Para entrenar a la red de aprendizaje profundo para generar una nueva vista a partir de una sola imagen de entrada, le mostraron un gran conjunto de imágenes y las correspondientes imágenes de nueva vista. Si bien este es un proceso tedioso, la red aprende con el tiempo cómo lidiar con él. Un aspecto importante de este enfoque es modelar la escena de entrada para simplificar el proceso de aprendizaje para la red. Pero en sus experimentos iniciales, Kalantari y Li no tenían forma de hacer esto.
“Nos dimos cuenta de que la representación de la escena era extremadamente importante para el entrenamiento exitoso de la red”, dijo Kalantari.
Para facilitar la gestión del proceso de formación, los investigadores convirtieron la imagen de entrada en una imagen multiplanar, que es una especie de representación tridimensional en capas. Primero, rompieron la imagen en planos a diferentes profundidades dependiendo de los objetos en la escena. Luego, para generar una foto de la escena desde un nuevo punto de vista, movieron los planos uno frente al otro de cierta manera y los conectaron. Usando esta representación, la red aprende a inferir sobre la posición de los objetos en la escena.
Para entrenar con éxito la red, Kalantari y Li la ingresaron en un conjunto de datos que contenía más de 2,000 escenas únicas que contenían varios objetos. Demostraron que su enfoque puede producir imágenes de alta calidad a partir de una vista novedosa de varias escenas que son mejores que los métodos de vanguardia anteriores.
Actualmente, los científicos están trabajando para ampliar su enfoque de la síntesis de películas. Dado que los videos son básicamente una colección de imágenes individuales que se reproducen rápidamente en sucesión, pueden aplicar su enfoque para generar nuevas vistas de cada una de estas imágenes de forma independiente en diferentes momentos. Sin embargo, al reproducir un video recién creado, la imagen parpadea y no es consistente.
“Estamos trabajando para perfeccionar este aspecto del enfoque para que sea adecuado para generar películas desde diferentes ángulos”, dijo Kalantari.
El método de síntesis de vista de una sola imagen también se puede utilizar para generar imágenes reenfocadas. También se puede usar potencialmente en aplicaciones de realidad virtual y realidad aumentada, como videojuegos y varios tipos de software que le permiten explorar un entorno visual específico.
Qinbo Li y col. Síntesis de campo de luz de una sola imagen con MPI variable y fusión de dos rejillas, Transacciones de gráficos ACM (2020). DOI: 10.1145 / 3414685.3417785
Entregado por
Facultad de Ingeniería de la Universidad de Texas A&M