MFCC
aus Wikipedia, der freien Enzyklopädie
Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf bitte mit ihn zu verbessern und entferne anschließend diese Markierung. |
Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel-Frequenz-Cepstrum-Koeffizienten) sind ein bedeutendes Werkzeug bei der automatischen Spracherkennung, da sie zu einer kompakten Darstellung des Spektrums führen. MFCCs werden aber auch zur Analyse von musikalischen Signalen herangezogen. Insbesondere für die Zuordnung von Metadaten-Sätzen zu Musikstücken werden sie häufig eingesetzt, wenn es um die Berechnung von Ähnlichkeiten geht.
Der name Mel bezieht sich auf die Mel-Skala, die verwendet wird um die Koeffizienten mit Hilfe von Filterbänken nach dieser Skala zu gewichten. Diese Koeffizienten beschreiben also wahrgenommene Eigenschaften.
Die lineare Modellierung von Spracherzeugung dient als eigentliche Grundlage für die Erzeugung von MFCCs: Ein periodisches Anregungssignal (Stimmbänder) wird durch ein lineares Filter (Mund, Zunge, Nasenhöhlen, ...) geformt. Für die Spracherkennung ist in erster Linie dieses Filter (bzw. seine Impulsantwort) und seine Veränderung interessant: Wir wollen wissen was gesagt wurde und nicht in welcher Tonlage. Die Berechnung der MFCC ist eine elegante Methode, das Anregungssignal und die Impulsantwort des Filters zu trennen.
Mathematisch formuliert, wird die Impulsantwort des Filters mit dem Anregungssignal "gefaltet", um das Sprachsignal zu erzeugen. Bei Berechnung des Cepstrums wird die Faltungsoperation auf Grund des Logarithmus in eine Addition transformiert, die einfach zu trennen ist, womit man das Sprachsignal in Anregung (excitation) und Quelle (source) trennen kann.
MFCCs werden durch die folgenden Schritte berechnet:
- Unterteilung des Eingabesignals in Blöcke bzw. Fenster (z.B. Hamming-Fensterfunktion um Kanteneffekte zu vermeiden). Überlappende Fenster sind üblich.
- (Diskrete) Fouriertransformation jedes einzelnen Fensters (Dadurch wird die Faltung von Anregungssignal und Impulsantwort in eine Multiplikation transformiert).
- Erzeugung des Betragsspektrum.
- Logarithmisierung des Betragsspektrums (Dieser Schritt wurde durch die Einsicht motiviert, dass "Lautheit" vom menschlichen Ohr in etwa logarithmisch wahrgenommen wird. Des Weiteren wird dadurch die Multiplikation von Anregungssignal und Impulsantwort in eine Addition transformiert).
- Reduktion der Anzahl der Frequenzbänder (z. B. 256) durch Zusammenfassen (auf z. B. 40). (Abbildung auf die Mel-Scala in diskreten Schritten mittels Dreiecksfiltern (effektiv eine Bandfilterung)).
- Abschließende Dekorrelation durch entweder eine Diskrete Kosinustransformation, Karhunen-Loève-Transformation oder eine Hauptkomponentenanalyse. (Ursprünglich wurden die logarithmierten Fourierkoeffizienten (ohne Mel-Bandpassfilterung) invers Fouriertransformiert. Die Anregungsfrequenz ist dann ein einzelne Spitze und leicht zu erkennen bzw. herauszufiltern. Weil es auf den ersten Blick relativ sinnfrei wirkt, das Fourier-transformierte Signal (nach Logarithmierung) wieder invers Fourier zu transformieren wurde das Resultat Cepstrum, eine Buchstabenverdrehung aus spectrum, getauft. Nachdem nach der (üblicherweise komplexen) Logarithmierung nur noch reelwertige Zahlen übrig bleiben, wurde die inverse Fourier- durch eine Kosinustransformation ersetzt, da diese weniger aufwändig zu berechnen ist.)