SPP 1527 - Methoden des Spracherwerbs basierend auf spärlicher Kodierung (Teilprojekt)

Project Period: 2011-01-01 – 2016-12-31
Externally Funded
Coordinator
Reinhold Häb-Umbach
Principal Investigator
Reinhold Häb-Umbach
Department(s)
Nachrichtentechnik (NT) / Heinz Nixdorf Institut
Description

Ziel dieses Projektes ist die Entwicklung eines Systems zum Lernen von Referenzmustern für das unüberwachte Erlernen einer Sprache. Die Maschine soll wiederkehrende Muster in dem kontinuierlich gesprochenen Eingangssprachsignal entdecken und ein Inventar von Einheiten erlernen, und zwar auf zwei verschiedenen Abstraktionsebenen: zum Einen auf der Ebene der Laute und zum Anderen auf der Ebene der Wörter. Es sollen Verfahren aus dem Gebiet der spärlichen Kodierung eingesetzt werden, um eine Repräsentation des Sprachsignals zu finden, bei der die Darstellung des Sprachsignals im Kurzzeit-Spektralbereich durch eine Linearkombination von Basisvektoren angenähert wird. Während nichtnegative Matrixfaktorisierung (NMF) auf Sprache bereits eingesetzt worden ist, gibt es andere Verfahren, welche nicht die Nichtnegativität der Matrixelemente voraussetzen, so dass sie besser geeignet sind, um sie auf die üblichen Parametrisierungen von Sprachsignalen, etwa die Mel-Frequenz Cepstralen Koeffizienten, anzuwenden. Ein vielversprechendes Verfahren ist die k-Singulärwertzerlegung (k-SVD), die bisher vornehmlich im Computersehen eingesetzt worden ist. Alle diese Lernverfahren müssen jedoch erweitert werden, damit sie, zusätzlich zu dem Erlernen der typischen spektralen Muster, auch die zeitliche Korrelation von Sprachsignalen erfassen können. Dazu sollen Ansätze aus dem Bereich der dynamischen Zeitanpassung und der ”hidden” Markovmodell-basierten Spracherkennung verwendet werden. Auf der ersten, unteren Stufe der Dekomposition des Eingangssprachsignals sollen wiederkehrende Lauteinheiten entdeckt werden. Auf der zweiten, höheren Abstraktionsebene werden mit ähnlichen Verfahren wie auf der ersten Ebene Wort- oder Phraseneinheiten erlernt, basierend auf einer Beschreibung der unteren Ebene mit Hilfe von n-Grammen, d.h. von Häufigkeiten von Lautfolgen. Die untere Ebene soll dabei Posteriorwahrscheinlichkeiten an die obere Ebene weitergeben, um eine vorzeitige definitive Entscheidung über Laute zu vermeiden.


DFG-Verfahren Schwerpunktprogramme


Teilprojekt zu SPP 1527: Autonomes Lernen

Grant Number
Funding Organisation
Deutsche Forschungsgemeinschaft