Automatische Transkription von Gesprächssituationen

Project Period: 2021-05-01 – 2024-12-31
Externally Funded
Alternative Name
Automatic transcription of conversation situations
Coordinator
Reinhold Häb-Umbach
Principal Investigator
Reinhold Häb-Umbach, Ralf Schlüter
Department(s)
Nachrichtentechnik (NT) / Heinz Nixdorf Institut
Description

Das Projekt befasst sich mit der maschinenlesbaren Verschriftung von Gesprächssituationen unter Verwendung von Raummikrofonen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Derzeitige technische Lösungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen. Dies hat vornehmlich drei Gründe: Zum einen ist die Signalqualität aufgrund von Raumhall und anderen häufig nichtstationären Geräuschquellen im Raum schlecht. Weiterhin fallen sich gerade bei informellen Gesprächssituationen die Personen häufig ins Wort, und in einem signifikanten Anteil der Zeit sprechen mehr als ein Sprecher gleichzeitig. Schließlich ist es die Dynamik einer Gesprächssituation, die Probleme bereitet, da sich Segmente von Stille, Aktivität von einem oder gleichzeitig mehreren Sprechern abwechseln. Ein Transkriptionssystem sollte auf beliebig langen Eingangssignalen arbeiten können, Situationen mit keinem, einem oder mehreren Sprechern korrekt behandeln können und die Verschriftung der Äußerungen unterschiedlicher Sprecher konsistent separaten Ausgaben zuordnen können. Existierende Lösungen bestehen aus mehr oder weniger unabhängig entwickelten Komponenten für die Segmentierung der Daten in homogene Blöcke, für die Sprechertrennung und schließlich für die Erkennung. Wir sind überzeugt, dass eine signifikante Leistungssteigerung möglich ist, wenn diese Aufgaben unter einem einheitlichen Optimierungskriterium gemeinsam betrachtet werden. Ziel dieses Projektes ist es, eine solche kohärente Formulierung zu entwickeln. Wir entwickeln Verfahren zur Verschriftung von Gesprächen, bei denen die Anzahl der aktiven Sprecher und das Maß an Sprecherüberlapp vorab unbekannt und zeitveränderlich sind. Die Algorithmen zur Bestimmung, wer wann spricht, zur Sprechertrennung und Signalverbesserung, und schließlich zur Erkennung werden unter einer einheitlichen Zielfunktion hergeleitet, um schließlich ein gemeinsames "Ende-zu-Ende" Training aller Komponenten zu ermöglichen. Wir streben auch eine "Ende-zu-Ende" Erkennung an, um vorläufige Entscheidungen, bei denen nicht alle Wissensquellen berücksichtigt wurden, zu vermeiden. Dabei werden unterschiedliche (gänzlich neuronale, hybride, kaskadierte, integrierte) Architekturen betrachtet. Die entwickelten Verfahren werden bezüglich der erreichbaren Erkennungsgenauigkeit, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet.


DFG-Verfahren Sachbeihilfen


Antragsteller Professor Dr.-Ing. Reinhold Häb-Umbach; Privatdozent Dr. Ralf Schlüter

Grant Number
Funding Organisation
Deutsche Forschungsgemeinschaft