por Beijing Zhongke Journal Publishing Co. Limitado.

La atención espacial puede ayudar a la red a centrarse en áreas de píxeles que contienen información espacial útil sobre movimientos faciales sutiles, mientras que la atención temporal permite que la red se centre en imágenes de series temporales con características que son más apropiadas para el reconocimiento. Fuente: Beijing Zhongke Journal Publishing Co. Limitado.
Muchas aplicaciones y sistemas inteligentes, incluidos los equipos y dispositivos biomédicos, requieren tecnología de interacción humano-computadora. Esta tecnología permite que el hardware inteligente obtenga información fisiológica y conductual de los humanos para procesar y realizar tareas específicas, brindando comodidad a la vida cotidiana y promoviendo la eficiencia social. Además, la tecnología de interacción humano-computadora tiene aplicaciones en muchos campos de investigación importantes.
El reconocimiento de las emociones es un desafío importante en la interacción humano-computadora porque comprender el estado emocional de los humanos es difícil pero importante para las máquinas inteligentes durante el proceso de interacción. El reconocimiento de las emociones humanas mediante el reconocimiento de las expresiones faciales se ha vuelto cada vez más popular en los últimos años. Las microexpresiones son expresiones faciales breves e involuntarias que consisten en sutiles movimientos de los músculos faciales que se producen cuando una persona trata de ocultar sus emociones.
De esta manera, las microexpresiones suelen revelar los verdaderos estados emocionales de los seres humanos y transmitir información más relevante en comparación con las meras expresiones faciales. Por lo tanto, el reconocimiento automático de microexpresiones tendrá aplicaciones potencialmente útiles en muchos campos. Por ejemplo, diagnósticos clínicos, trabajo de seguridad e interacción humano-computadora.
Inspirado en la investigación discutida anteriormente, este documento propone una Red Neural de Atención Espacial Adaptativa (ASTANN) para CDMER. Específicamente, las bases de datos se preprocesan primero extrayendo información de flujo óptico. La información de flujo óptico se combina luego con imágenes faciales para generar nuevas representaciones. Además, se seleccionaron tres imágenes de la nueva representación para que sirvieran como una secuencia de expresión dinámica y luego se ajustaron a la cuadrícula para una mayor extracción de características espaciotemporales.
Finalmente, se desarrolló una función de pérdida simple pero efectiva para optimizar los parámetros de la red y reducir la brecha de distribución entre la base de datos de origen y de destino. La principal ventaja de este modelo es que utiliza una red neuronal profunda con un mecanismo de atención espacio-temporal para centrarse en las características sutiles e inmediatas de las microexpresiones para resolver problemas de CDMER.
Utilizando la atención espacio-temporal, la arquitectura puede capturar automáticamente información útil que es escasa en los dominios espacial y temporal en muestras de microexpresión para tareas CDMER.
El mecanismo de atención se introduce calculando los pesos de atención para las muestras en los dominios espacial y temporal, destacando la información que es más útil en las muestras para el esqueleto.
- Se utiliza un método de adaptación de dominio simple pero efectivo para incorporar la alineación de correlación (CORAL)
- Se utiliza un método simple pero efectivo de adaptación de dominio para incorporar la pérdida de alineación de correlación (CORAL) en la primera capa completamente conectada (FC) de la red neuronal, lo que mejora en gran medida el rendimiento de las tareas entre bases de datos.
- Los experimentos se llevan a cabo en dos tareas de referencia y los resultados muestran que el enfoque de los autores tiene un mejor rendimiento en comparación con los métodos de última generación (SOTA).
En el futuro, los investigadores esperan investigar si la combinación de información multimodal, como texto y sonido, puede ayudar en el proceso de reconocimiento, que es un tema importante y podría contribuir al campo de investigación del CDMER.
El artículo fue publicado en la revista Realidad virtual y hardware inteligente.
Más información:
Yuhan Ran et al., Red neuronal adaptativa de atención espacio-temporal para el reconocimiento de microexpresiones entre bases de datos, Realidad virtual y hardware inteligente (2023). DOI: 10.1016/j.vrih.2022.03.006
Proporcionado por Beijing Zhongke Journal Publishing Co. Limitado.