A e.sigma coloca nos seus simuladores e sistemas grande importância na utilização intuitiva e absolutamente realista. Por este motivo é necessário que algumas interfaces de usuários, também designadas por "human-machine interface (HMI), sejam equipadas com módulos de interação de voz (multimodal), além das possibilidades de feedback e de entrada táteis e óticas. Para este efeito foi desenvolvido internamente um módulo para o reconhecimento/resposta de voz, através do qual, por exemplo, os candidatos a controladores aéreos e os respectivos instrutores podem comandar, por exemplo, aeronaves virtuais através de um comando por voz configurável e funções de simulação.
Componentes chave do reconhecimento de voz/comando por voz da e.sigma:
O módulo de reconhecimento de voz independente é adaptado às necessidades e requisitos do cliente e treinado com dados áudio específicos de aplicação. Através deste treinamento específico do domínio, o sistema de reconhecimento de voz é muito robusto. Além disso, os arquivos áudio são gravados e depois utilizados para uma otimização futura dos módulos acústicos.
Para permitir um comando por voz de sucesso, é adicionalmente necessária uma boa capacidade de reconhecimento da fala. Isto foi alcançado através de gramáticas dependentes do estado. Com base nas informações de fundo de diversos simuladores são ativadas as gramáticas e frases necessárias, específicas dos respectivos estados. Desta forma a complexidade das hipóteses de reconhecimento é minimizada e a performance do reconhecimento de voz é otimizada. A robustez dos sistemas de simulação com comando por voz é adicionalmente aumentada através de um processo de adaptação monitorizado do falante. Através dos processos de adaptação utilizados pela e.sigma, a performance de reconhecimento é melhorada significativamente para o falante individual.
Outro módulo de sistema importante é o módulo Emotional-Text-to-Speech (TTS). Com este podem ser configuradas frases comuns como, por exemplo, ICAO, e podem ser construídas respostas dependentes do conteúdo para o formando e transportados conteúdos de respostas emocionais.
O componente chave do sistema de comando multimodal é o sistema de gestão do diálogo. As suas tarefas consistem no processamento das hipóteses do falante e na criação de comandos correspondentes para o comando das funções de simulação. A e.sigma detém uma característica única no mercado que consiste na possibilidade de configuração da interface multimodal. O usuário pode optar se pretende definir os comandos por voz ou por texto e aumentar e modificar as gramáticas.