La IA parece ideal para crear los enormes conjuntos de imágenes necesarios para entrenar a los automóviles autónomos y otras máquinas para que vean su entorno, pero los sistemas de IA generativa actuales tienen inconvenientes que pueden limitar su uso. Ahora, los ingenieros de Princeton han desarrollado un sistema de software que supera estas limitaciones y crea rápidamente conjuntos de imágenes para preparar máquinas para casi cualquier entorno visual.
El nuevo sistema de Infinigen, utiliza las matemáticas para crear objetos y entornos de aspecto natural en tres dimensiones. Infinigen es un generador de procedimientos, lo que en informática significa un programa que crea contenido basado en algoritmos automatizados diseñados por humanos, en lugar de la laboriosa entrada manual de datos o las redes neuronales que impulsan la inteligencia artificial moderna. De esta forma, el nuevo programa genera innumerables objetos 3D usando solo reglas matemáticas aleatorias.
Infinigen es “un programa dinámico para construir una escena natural ilimitada, diversa y realista”, dijo Jia Deng, profesor de informática en Princeton y autor principal de un nuevo estudio que detalla el sistema de software. El trabajo fue presentado en CVPR 2023 conferencia.
El enfoque matemático de Infinigen crea datos visuales etiquetados necesarios para entrenar los sistemas de visión por computadora, incluidos los que se usan en robots domésticos y automóviles autónomos. Debido a que Infinigen genera mediante programación cada imagen (primero crea un mundo 3D, lo llena con objetos y coloca la cámara para tomar la imagen), Infinigen puede proporcionar automáticamente etiquetas detalladas para cada imagen, incluidas la categoría y la ubicación de cada objeto.
Las imágenes etiquetadas automáticamente se pueden usar para entrenar al robot para que reconozca y ubique objetos que solo reciben una imagen como entrada. Según Deng, tales datos visuales etiquetados no serían posibles con los generadores de imágenes de IA existentes porque estos programas generan imágenes utilizando una red neuronal profunda que no permite la extracción de etiquetas.
Además, los usuarios de Infinigen tienen un control detallado sobre la configuración del sistema, como la iluminación precisa y los ángulos de visión, y pueden ajustar el sistema para que las imágenes sean más útiles como datos de entrenamiento.
Además de generar mundos virtuales llenos de objetos digitales de formas, tamaños, texturas y colores naturales, las capacidades de Infinigen incluyen representaciones sintéticas de fenómenos naturales como fuego, nubes, lluvia y nieve.
“Esperamos que Infinigen demuestre ser un recurso útil no solo para crear datos de entrenamiento para la visión por computadora, sino también para la realidad virtual y aumentada, el desarrollo de juegos, la creación de películas, la impresión 3D y la generación de contenido en general”, dijo Deng.
Para construir Infinigen, los investigadores de Princeton comenzaron con Blender, un sistema de gráficos gratuito y de código abierto de herramientas de software estándar que data de la década de 1990. Todos pueden usarlo libremente.
Al ampliar significativamente el menú de objetos y paisajes representados en 3D, otra ventaja clave de Infinigen es que puede aumentar la capacidad de las máquinas para realizar reconstrucciones en 3D, a partir de píxeles 2D, de los espacios complejos en los que operarán. Pasar de imágenes reales a imágenes sintéticas para desarrollar automóviles y robots que navegarán en el mundo real puede parecer contradictorio, pero los conjuntos de datos de imágenes reales tienen limitaciones clave, dijo Deng.
Primero, las computadoras que manejan robots y autos inteligentes no perciben las imágenes y otros objetos visuales como lo hacen los humanos. Una imagen que parece tridimensional para un ser humano es solo una colección bidimensional de píxeles para una computadora. Para permitir que los robots perciban una imagen en 3D, la imagen debe contener una instrucción llamada “verdad básica en 3D”. Esto es difícil de hacer con imágenes 2D existentes, pero fácil para un sistema como Infinigen.
“Los conjuntos de datos de imágenes 3D sintéticas inicialmente se mostraron muy prometedores”, dijo Deng, “y desarrollamos Infinigen para continuar cumpliendo esa promesa”.
Para Infinigen, los investigadores de Princeton diseñaron subrutinas, llamadas generadores, que se especializan en producir diferentes tipos de objetos digitales, como “peces” o “montañas”. Los usuarios pueden trabajar con subrutinas para ajustar una variedad de parámetros que incluyen tamaño, textura, color y reflectividad.
“Los usuarios pueden ajustar los parámetros para obtener tanto real o irreal como quieran para su tarea en particular”, dijo Deng. “La capacidad de expansión puede ayudar a garantizar que las máquinas estén ampliamente capacitadas para operar y navegar por todo el espectro de entornos que encuentran”.
Los investigadores esperan que Infinigen se convierta en una herramienta de colaboración, que permita a los usuarios agregar más funciones a medida que se desarrolla.
“El objetivo es hacer que la cobertura de Infinigen sea tan buena que el proyecto se convierta en un lugar para recopilar datos para el entrenamiento de visión por computadora, sea cual sea la tarea”, dijo Deng. “Queremos que Infinigen se convierta en un esfuerzo colaborativo impulsado por la comunidad que proporcione una herramienta útil para muchos usuarios”.
Más información:
Informe: Infinitos mundos fotorrealistas usando generación procesal