e.sigma legt bei seinen Simulatoren und Systemen einen Schwerpunkt darauf, dass diese intuitiv, benutzerfreundlich und absolut realitätsnah zu bedienen sind. Aus diesem Grund ist es notwendig, dass einige Benutzerschnittstellen oder auch „human-machine interface“ (HMI) genannt, neben den haptischen und optischen Feedback- und Eingabemöglichkeiten, ebenso mit sprachlichen Interaktionsmodulen (multimodal) ausgestattet sind. Zu diesem Zweck wurde ein hausinternes Modul zur Spracherkennung und Spracherwiderung entwickelt, mit welchem z. B. Fluglotsenkandidaten und deren Ausbilder über eine konfigurierbare Sprachsteuerung, Simulationsfunktionen, wie z. B. virtuelle Flugzeuge, steuern können.
Kernkomponenten der e.sigma-Spracherkennung / Sprachsteuerung:
Das sprachunabhängige Erkennungsmodul wird exakt auf die Anforderungen und Bedürfnisse der Kunden zugeschnitten und mit den anwendungsspezifischen Audiodaten trainiert. Durch dieses domainspezifische Training wird die Spracherkennung sehr robust. Hinzu kommt, dass während der Nutzung die Audiofiles mitgeschnitten werden und dann zur weiteren Optimierung der akustischen Module genutzt werden.
Um eine erfolgreiche Sprachsteuerung zu ermöglichen, ist zudem eine sehr gute Erkennungsleistung des Gesprochenen notwendig. Durch den Einsatz von zustandsabhängigen Grammatiken konnte dieses erreicht werden. Basierend auf den Hintergrundinformationen aus den unterschiedlichen Simulationen werden situationsspezifisch die benötigten Grammatiken und Phrasen aktiviert. Auf diese Weise kann die Komplexität der Erkennungshypothesen minimiert und somit die Spracherkennungsleistung optimiert werden. Die Robustheit der sprachgesteuerten Simulationssysteme wird weiterhin über ein nicht überwachtes Sprecheradaptionsverfahren erhöht. Durch die von e.sigma verwendeten Adaptionsverfahren verbessert sich die Erkennungsleistung für den individuellen Sprecher signifikant.
Ein weiteres wichtiges Systemmodul ist das Emotional-Text-to-Speech-Modul (TTS). Hierüber können gängige Phrasen, wie z. B. ICAO, konfiguriert und inhaltsabhängige Antworten an den Auszubildenden erstellt werden sowie emotionale Aussageinhalte transportiert werden.
Die Kernkomponente der multimodalen Systemsteuerung ist das Dialog-Management-System. Seine Aufgaben liegen in der Verarbeitung der erkannten Hypothesen des Sprechers und der Generierung entsprechender Kommandos zur Steuerung der Simulationsfunktionen. Ein klares Alleinstellungsmerkmal erreicht e.sigma über die Möglichkeit der Konfiguration der multimodalen Schnittstelle. Dem Benutzer wird die Freiheit eingeräumt, Steuerbefehle entweder als Sprach- oder Textkommando zu definieren sowie die Grammatiken zu erweitern und zu modifizieren.