por Beijing Zhongke Journal Publishing Co.
En un artículo publicado en Investigación de inteligencia artificial, un equipo de investigadores está investigando si los datos 3D sintéticos pueden reemplazar los videos de la vida real en el entrenamiento de la asociación. Específicamente, presentan un motor de datos sintéticos a gran escala llamado MOTX, donde las características de movimiento de las cámaras y los objetos se configuran manualmente para que sean similares a los conjuntos de datos reales.
Muestran que, en comparación con los datos reales, el conocimiento de asociación derivado de datos sintéticos puede lograr un rendimiento muy similar en conjuntos de pruebas reales sin técnicas de adaptación de dominio.
El seguimiento de objetos múltiples (MOT) es un sistema complejo que consta de varios componentes funcionales, como detección, representaciones visuales y asociaciones. La unión se encuentra al final de la canalización de la MOT y, por lo general, se considera el problema principal para conectar los cuadros delimitadores a los tracklets existentes.
El módulo de asociación saca conclusiones basadas en características de apariencia, características de movimiento o ambas. En la comunidad, muchas soluciones para la asociación tienen una cosa en común: están entrenadas en datos de video reales. Sin embargo, hay varios problemas potenciales con esta práctica.
Primero, describir trayectorias en cuadros de video requiere altos costos de mano de obra. Esto limita potencialmente la escala de los datos de entrenamiento de MOT. En segundo lugar, las preocupaciones éticas y de privacidad limitan el uso de datos del mundo real en tareas centradas en humanos, como el seguimiento de varios peatones.
Para evitar estas preocupaciones, los investigadores de la Universidad Nacional de Australia y la Universidad de Tsinghua están investigando cómo usar datos sintéticos en las MOT. Construyen un motor de simulación 3D, MOTX, para generar videos con múltiples objetivos, anotaciones ricas y factores visuales controlables. Dichos datos ofrecen una forma económica de adquirir datos a gran escala con etiquetas precisas. Con MOTX, intentan responder a dos preguntas interesantes.
La primera pregunta es si el conocimiento de asociación obtenido a partir de datos sintéticos funciona en películas reales. Una debilidad común de los datos sintéticos es su diferencia en la distribución con los datos del mundo real, especialmente con respecto al estilo de la imagen. En tareas “centradas en la apariencia”, como la reidentificación y la segmentación, los modelos entrenados en datos sintéticos requieren técnicas de entrenamiento adicionales, como el ajuste fino o la adaptación del dominio en datos del mundo real para evitar fallas en entornos de prueba del mundo real.
Sin embargo, el aprendizaje de asociación difiere del aprendizaje de apariencia en términos de requisitos de datos. Según el trabajo existente, las señales de movimiento juegan un papel esencial en la asociación. Si bien la apariencia realista de las imágenes es difícil de simular para el motor, puede ser más fácil con señales de movimiento como la oclusión.
Este estudio muestra que en varias redes de asociación de última generación, el conocimiento de asociación derivado de datos sintéticos puede adaptarse bien a escenarios del mundo real sin degradación del rendimiento. Específicamente, los investigadores sintetizan conjuntos de datos utilizando MOTX, configurando manualmente los parámetros clave (por ejemplo, la vista de la cámara) para aproximarse a los conjuntos de entrenamiento del mundo real.
Luego, cuando las redes asociativas más recientes se entrenan con dichos videos sintéticos, logran una precisión de seguimiento similar y, a veces, incluso mejor en comparación con los datos reales. Su investigación sobre la ablación de las características de apariencia y movimiento proporciona dos sugerencias.
En primer lugar, la discrepancia de apariencia entre los datos sintéticos y los datos reales no puede perjudicar el aprendizaje del conocimiento asociativo. En segundo lugar, los motores 3D pueden simular bien las señales de movimiento en escenarios asociativos. Los hallazgos anteriores pueden ser la razón de la competitividad de los datos sintéticos y sugieren que la revisión técnica se beneficia más del uso de datos sintéticos que de tareas “centradas en la apariencia”. Este es un estudio muy temprano de considerar el papel de los datos sintéticos en MOT.
La segunda pregunta es cómo los factores de movimiento influyen en el aprendizaje de las asociaciones. Los conjuntos de datos existentes son principalmente del mundo real, como MOT15. Si bien estos datos son beneficiosos para el entrenamiento de modelos, el hecho de que sean constantes nos brinda oportunidades limitadas para comprender cómo responde el sistema a los factores visuales cambiantes. Por ejemplo, ¿cómo afecta la densidad de peatones en el conjunto de entrenamiento a la precisión del modelo? ¿Se puede implementar bien un modelo entrenado con cámaras estáticas en sistemas con cámaras en movimiento?
Los investigadores están aprovechando las sólidas capacidades de personalización de MOTX para ayudar a responder esta pregunta. Realizan investigaciones empíricas sobre cómo los factores relacionados con el objeto y la cámara influyen en el aprendizaje del conocimiento asociativo. En particular, estudian dos grupos de factores.
El primer grupo de factores son los factores peatonales, como la densidad y la velocidad del tráfico; El segundo son los factores relacionados con la cámara, incluida la vista de la cámara y el estado de movimiento de la cámara. En detalle, en el motor MOTX2 propuesto, los factores de movimiento se abstraen con los parámetros del sistema, por lo que se pueden simular fácilmente diferentes escenarios simplemente cambiando estos parámetros, por ejemplo, ajustando la velocidad del objeto a 1 m/s. Sus resultados arrojan luz sobre la relación entre los factores en los datos de entrenamiento y prueba y el rendimiento del sistema MOT.
Más información:
Yuchi Liu et al., Investigando el uso de datos sintéticos para aprender efectivamente el conocimiento de asociación, Investigación de inteligencia artificial (2023). DOI: 10.1007/s11633-022-1380-x
Proporcionado por Beijing Zhongke Journal Publishing Co.