Suena familiar: estructura controlada por la identidad del hablante para la traducción automática del habla

Suena familiar: estructura controlada por la identidad del hablante para la traducción automática del habla

La conversión de voz se realiza seleccionando el asiento de altavoz de destino del libro de códigos de altavoz. Las características de la voz se pueden controlar de forma independiente mediante los componentes de incrustación del altavoz principal. Crédito: Masato Akagi

Los robots de hoy han recorrido un largo camino desde sus inicios como seres insensibles diseñados principalmente para ayudar a los humanos mecánicamente. Hoy en día, pueden ayudarnos intelectual e incluso emocionalmente, a imitar mejor a las personas conscientes. Una parte integral de esta capacidad es usar el habla para comunicarse con el usuario (ejemplos notables son los asistentes inteligentes como Google Home y Amazon Echo). A pesar de estos notables logros, todavía no suenan muy “humanos”.

Aquí es donde entra la conversión de voz (VC). Tecnología utilizada para modificar la identidad del hablante sin cambiar el contenido lingüístico. VC puede hacer que la comunicación hombre-máquina suene más “natural” al cambiar información no lingüística, como agregar emociones a discurso. “Además de la información lingüística, la información no lingüística también es importante para la comunicación natural (entre personas). En consecuencia, la CV puede ayudar a las personas a ser más sociales porque pueden obtener más información del habla », explica el Prof. Masato Akagi del Instituto Avanzado de Ciencia y Tecnología de Japón (JAIST), que está trabajando en percepción del habla y procesamiento del habla.

Sin embargo, el habla puede existir en varios idiomas (por ejemplo, en una plataforma de aprendizaje de idiomas) y, a menudo, es posible que necesitemos una máquina que actúe como traductor de voz a voz. En este caso, el modelo VC convencional tiene varios inconvenientes, ya que el Prof. Akagi y su estudiante de doctorado en JAIST, Tuan Vu Ho, lo descubrieron tratando de aplicar su modelo de CV monolingüe a una tarea de CV “interlingual” (CLVC). En primer lugar, el cambio de identidad del hablante ha provocado una modificación indeseable de la información lingüística. Además, su modelo no tuvo en cuenta las diferencias entre idiomas en el “contorno F0”, que es una característica importante de la percepción del habla, con F0 refiriéndose a la frecuencia fundamental con la que las cuerdas vocales vibran en los sonidos sonoros. Tampoco garantizó la identidad del hablante deseado para el discurso saliente.

Ahora, en un nuevo estudio publicado en Acceso IEEE, los investigadores propusieron un nuevo modelo adecuado para CLVC que permite tanto la imitación de voz como el control de la identidad del hablante del habla generada, lo que es una mejora significativa con respecto a su modelo de VC anterior.

En particular, el nuevo modelo utiliza la integración de lenguaje (mapeando texto en lenguaje natural como palabras y expresiones con representaciones matemáticas) para separar los lenguajes de la individualidad del hablante y el modelado F0 con control de contorno F0. Además, acepta aprendizaje profundobasado en un modelo de entrenamiento llamado red generativa de estrellas opuestas o StarGAN, además de su modelo de autocodificador variacional (VAE) utilizado anteriormente. En pocas palabras, el modelo VAE toma la entrada, la convierte en una representación más pequeña y densa y la vuelve a convertir en la entrada original, mientras que StarGAN utiliza dos redes en competencia que se empujan entre sí para generar iteraciones mejoradas hasta que las muestras de salida no se pueden distinguir de las naturales. unos.

Los científicos demostraron que su modelo se puede entrenar de manera integral, con la optimización directa de la incorporación del lenguaje durante el entrenamiento y permitiendo un buen control de la identidad del hablante. La condición F0 también ayudó a eliminar la dependencia lingüística de la individualidad del hablante, lo que aumentó esta capacidad de control.

Los resultados son emocionantes y el Prof. Akagi anticipa algunas perspectivas futuras para su CLVC Modelo. “Nuestros hallazgos tienen una aplicación directa para proteger la privacidad del hablante al anonimizar su identidad, agregar un sentido de urgencia al habla en emergencias, restaurar la voz después de la cirugía, clonar las voces de personajes históricos y reducir el costo de producción de audiolibros mediante la creación de un diferentes voces de personajes, solo por nombrar algunos “, comenta. Tiene la intención de mejorar aún más la maniobrabilidad. altavoz identidad en futuras investigaciones.

Quizás llegue pronto el día en que los dispositivos inteligentes empiecen a sonar aún más como personas.


Procesamiento de señales de voz: mejora de los modelos de conversión de voz

Más información:
Tuan Vu Ho et al., Conversión de voz interlingüística con individualidad de hablante controlada usando autocodificador de variación y red de adversarios de generación de estrellas, Acceso IEEE (2021). DOI: 10.1109 / ACCESS.2021.3063519

Proporcionado por el Instituto Avanzado de Ciencia y Tecnología de Japón

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *