El diálogo de voz es la forma más natural para que los humanos interactúen con agentes complejos y autónomos como los robots. Los entornos operativos del ejército del futuro requerirán tecnología que permita a los agentes inteligentes de IA comprender, ejecutar e interactuar con los comandos como compañeros de equipo.
Los científicos del Comando de Desarrollo de Capacidades de Combate del Ejército de los Estados Unidos, conocido como DEVCOM, el Laboratorio de Investigación del Ejército y el Instituto de Tecnologías Creativas de la Universidad del Sur de California patrocinado por el Departamento de Defensa del Centro de Investigación Afiliado a la Universidad, han desarrollado un enfoque para interpretar y responder de manera flexible a las intenciones de los soldados. viene de hablado diálogo con sistemas autónomos.
Esta tecnología es ahora un componente central del procesamiento de diálogo en el sistema de Interfaz de Diálogo y Comprensión Conjunta (JUDI) del laboratorio, un prototipo que permite interacciones conversacionales bidireccionales entre soldados y sistemas autónomos.
“Utilizamos una técnica de clasificación estadística para habilitar la IA conversacional utilizando tecnologías de vanguardia para la comprensión del lenguaje natural y la gestión del diálogo”, dijo el investigador militar Dr. Felix Gervits. “El clasificador de lenguaje estadístico permite a los sistemas autónomos interpretar las intenciones del Soldado reconociendo el propósito de la comunicación y realizando acciones para hacer realidad la intención básica”.
Por ejemplo, dijo que si un robot recibe un comando “girar 45 grados y enviar una imagen”, puede interpretar la instrucción y completar la tarea.
Para lograr esto, los científicos entrenaron a su clasificador en un conjunto de datos de diálogo humano-robot etiquetado generado durante una tarea conjunta de búsqueda y rescate. El clasificador aprendió a asignar comandos verbales a respuestas y acciones, lo que le permitió aplicar este conocimiento a nuevos comandos y reaccionar en consecuencia.
Los investigadores han desarrollado algoritmos que incorporan el clasificador en un sistema de gestión de diálogo que incluye técnicas para determinar cuándo pedir ayuda con información incompleta, dijo Gervits.
Con respecto al impacto de las fuerzas armadas, los investigadores dijeron que la tecnología podría aplicarse a vehículos de combate y sistemas autónomos para permitir capacidades avanzadas de conversación en tiempo real con equipos de soldados y agentes.
“Al crear una interfaz de voz natural para estos complejos sistemas autónomos, los investigadores pueden apoyar la operación de manos libres para mejorar el conocimiento de la situación y dar a nuestras tropas una ventaja decisiva”, dijo Gervits.
Según Gervits, esta investigación es significativa y única porque permite el diálogo mutuo entre soldados y sistemas autónomos.
“Interactuar con agentes tan locuaces no requiere ningún entrenamiento para los soldados porque el habla es una interfaz natural e intuitiva para los humanos y no hay necesidad de cambiar lo que pueden decir”, dijo Gervits. “El beneficio clave es que el sistema también es bueno para lidiar con el habla fuerte que incluye lagunas, rellenos y disfluencias, todas características que se esperarían en una conversación normal con la gente”.
Debido a que el clasificador está entrenado con anticipación, el sistema puede funcionar en tiempo real sin retrasos en el procesamiento de la conversación, dijo.
“Esto promueve una mayor naturalidad y flexibilidad en el diálogo Soldado-Agente y puede mejorar la efectividad de este tipo de equipos de agentes mixtos”, dijo Gervits.
En comparación con los enfoques comerciales de aprendizaje profundo que requieren conjuntos de datos grandes y costosos para entrenar el sistema, este enfoque requiere un orden de magnitud menos ejemplos de entrenamiento, dijo. También tiene la ventaja de poder reducir el tiempo de implementación y la capacidad de arranque en frío en nuevos entornos.
Otra diferencia es que los sistemas de diálogo comercial generalmente se entrenan en campos no militares, mientras que su enfoque está en una tarea de búsqueda y rescate diseñada específicamente para imitar el estilo de interacción soldado-robot que puede ocurrir en un entorno táctico futuro.
Finalmente, el enfoque de clasificación permite una mayor transparencia y explicabilidad del funcionamiento del sistema, permitiendo el análisis de por qué el sistema provocó un determinado comportamiento. Esto es crucial para aplicaciones militares donde las consideraciones éticas requieren una mayor transparencia. sistemas autónomosDijo Gervits.
La investigación se realizó principalmente hace unos años cuando Gervits era pasante en ICT. Otro manuscrito fue aceptado en el Taller Internacional sobre Sistemas de Diálogo Oral en 2019 y presentado en la conferencia. Se publicó en materiales de conferencias en 2021.
El Dr. David Traum, del grupo de Diálogo en Lenguaje Natural de ICT, dirigió la investigación impulsada por el diálogo, que incluyó un clasificador estadístico. El Dr. Matthew Marge de ARL dirigió el proyecto Botlanguage, una empresa conjunta de ARL en el Adelphi Laboratory Center, ARL West y ICT.
Los siguientes pasos de este estudio son triples:
- Mejorar la eficiencia del sistema complementando el clasificador con representaciones lingüísticas adicionales.
- Ampliar el enfoque para permitir el aprendizaje de nuevos ejemplos de formación a través del diálogo en tiempo real. Un ejemplo de esto es un robot que encuentra algo nuevo en el entorno y le pregunta al Soldado qué es.
- Integrando modalidades de interacción adicionales como la mirada y los gestos, además del habla, para una interacción más robusta en entornos físicos.
“Con el entorno táctico del futuro, que probablemente incluirá equipos mixtos de soldados y agentes, soy optimista de que esta tecnología tendrá un impacto transformador en el futuro del ejército”, dijo Gervits. “Para mí, como científico, es una gran satisfacción ver un resultado tan tangible de mis esfuerzos”.
Felix Gervits y col. Un enfoque basado en la clasificación para automatizar el diálogo entre humanos y robots, Incrementar la naturalidad y flexibilidad de las interacciones en el diálogo hablado. (2021). DOI: 10.1007 / 978-981-15-9323-9_10
Entregado por
Laboratorio de Investigaciones Militares