• Reconocimiento de voz

e.sigma enfoca sus simuladores y sistemas de manera que éstos resulten intuitivos, de fácil manejo y absolutamente fieles a la realidad. Por esta razón, es necesario que se equipen algunas inferfaces de usuario o también "human-machine interface" (HMI), aparte de con las posibilidades de entrada óptica y táctil, igualmente con módulos de interacción lingüística (multimodal).  Para conseguir este objetivo se desarrolló internamente un módulo para el reconocimiento y réplica de voz, con el cual, por ejemplo, candidatos a controladores aéreos y sus formadores podían dirigir funciones dentro de la simulación, como aviones virtuales, mediante órdenes de voz configurables.

 

Componentes elementales de reconocimiento y control de voz e.sigma:

  • Módulo de reconocimiento de voz independiente

  • Gramáticas dependientes del estado

  • Adaptación al hablante

  • Emotional-Text-to-Speech

  • Dialog Management System

  • Módulo de configuración

 

El módulo de reconocimiento de voz independiente se hace a medida de los requerimientos y necesidades del cliente y se entrena por medio de los datos de audio específicos para la aplicación. A través de este entrenamiento específico del dominio se logra un reconocimiento de voz muy robusto. A esto se le añade, que durante la utilización se cortan archivos de audio y se emplean para la consecutiva optimización de los módulos acústicos.

Para conseguir un control de voz exitoso se necesita, en primer lugar, una muy alta eficacia en el reconocimiento de lo hablado. Esto se puede lograr a través de las gramáticas dependientes del estado. Basándose en las informaciones de trasfondo de las diferentes simulaciones, se activan las gramáticas y frases específicas de cada situación. De esta manera se puede minimizar la complejidad de las hipótesis de reconocimiento y asimismo, optimizar la eficacia del reconocimiento de voz.

La robustez de los sistemas de simulación dirigidos por voz aumenta debido a un proceso no monotorizado de adaptación del hablante. Por medio de los procesos de adaptación utilizados se mejora el rendimiento del reconocimiento de cada individuo de forma significativa

Otro módulo importante del sistema es el Emotional-Text-to-Speech-Modul (TTS). Sobre él se pueden configurar frases corrientes, por ejemplo: OACI y respuestas de diferente contenido para el aprendiz, al igual que se pueden transportar declaraciones con un matiz emocional.

El componente elemental del control del sistema multimodal es el Dialog-Management-System. Sus tareas consisten en el procesamiento de las hipótesis reconocidas del hablante y la generación de los comandos correspondientes para la dirección de las funciones en la simulación. e.sigma consigue una evidente característica única  por medio de la posibilidad de la configuración del interfaz multimodal. Al usuario se le concede la libertad de definir ordenes de dirección como comandos de texto o  hablados, así como aumentar las gramáticas y modificarlas.

 

  • Rápida ultilización de los módulos de reconocimiento de voz

  • Hace posible el aprendizaje de las frases corrientes, p. ej. de un controlador aéreo, por medio de la aplicación adecuada de las gramáticas en la simulación.

  • Contiene todos los diálogos habituales procedentes del tráfico aéreo privado y militar.