Beschreibung
Die Dissertation untersucht künstliche neuronale Netze in der Prosodiemodellierung und konzentriert sich auf Sprachsynthese. Sie gibt einen Überblick über das Dresdner Synthesesystem DRESS, die Theorie neuronaler Netze sowie die Grundlagen der Prosodiemodellierung. In einem ausführlichen Kapitel werden Netze zur Vorhersage prosodischer Parameter, die verwendeten Sprachdaten, Trainingsergebnisse und Hörexperimente beschrieben. Um die Vorteile neuronaler und regelbasierter Prosodiemodelle zu kombinieren, wird eine hybride Architektur entwickelt und mit Beispielen zur Intonations- bzw. Dauersteuerung illustriert. Ein weiteres Kapitel widmet sich der prosodischen Korpus-Analyse und erläutert ein Beispiel zur Phrasengrenzen-Detektion. Abschließend werden Modellanwendungen sowie Experimente für Deutsch, Mandarin-Chinesisch und Französisch vorgestellt. Das integrierte Prosodiemodell berechnet Grundfrequenz, Silbendauer und Intensität in einem Arbeitsschritt. Es wird evolutionär optimiert. Neuronale und hybride Prosodiemodelle erleichtern die multilinguale Systementwicklung. Die erzielbare Sprachqualität ist von den verfügbaren Trainingsdaten abhängig.
Autorenportrait
Oliver Jokisch studierte Informationstechnik an der Technischen Universität Dresden und an der Loughborough University of Technology in Großbritannien. Seit 1995 arbeitet er am Institut für Akustik und Sprachkommunikation der TU Dresden. Seine Forschungsschwerpunkte betreffen die multilinguale Sprachsynthese (Prosodiegenerierung, Sprachkorpora und Embedded TTS) sowie assistive Technologien, z. B. für den Fremdsprachenerwerb. Er war maßgeblich an der Entwicklung der TTS-Systeme DRESS und MICRODRESS sowie des Aussprachetrainers AzAR beteiligt.Als Projektmanager der GWT-TUD GmbH betreut er seit 1998 industrienahe Entwicklungsprojekte zur Signalverarbeitung und Mustererkennung. Seit 2001 ist er Mitgründer und Berater der voice INTER connect GmbH, die Produkte zur Signalverarbeitung in elektronischen Geräten anbietet.