Syntezator mowy
Z Wikipedii
Syntezator mowy służy do sztucznego generowania mowy ludzkiej. Program potrafi "powiedzieć" dowolny tekst, co pozwala na zautomatyzowanie informowania bądź alarmowania użytkownika.
Spis treści |
[edytuj] Proces syntezy mowy TTS (ang. Text To Speech)
Proces syntezy mowy dzielimy na dwa etapy. W pierwszym z nich program wydobywa z wprowadzonej frazy jak największą ilość informacji lingwistycznych - stara się zrozumieć tekst. Etap ten nazywany jest przetwarzaniem języka naturalnego NLP (ang. Natural Language Processing). Później następuje utworzenie dźwiękowej wypowiedzi frazy na podstawie zdobytych o niej informacji - jest to etap cyfrowego przetwarzania sygnału DSP (ang. Digital Signal Processing). W obu wyżej wymienionych etapach jest wykonywanych wiele pośrednich kroków, wymagających sporej wiedzy lingwistycznej i matematycznej.
[edytuj] Rodzaje syntezy sygnału mowy
Metoda konkatencyjna polega na nagraniu dużej bazy prawdziwego głosu lektora (tzw. baza segmentów), jej oznaczeniu i przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta pozwala na uzyskanie mowy najbardziej naturalnej.
[edytuj] Procesy w poszczególnych etapach syntezy mowy
W etapie NLP wyróżniamy następujące działania:
- analiza tekstu
- transkrypcja fonetyczna
- generowanie prozodii
- wysłanie danych do DSP
Natomiast w etapie DSP zachodzą takie procesy jak:
- odbiór fonemów i prozodii z etapu NLP
- dekodowanie / dekompresja segmentów (dzięki bazie segmentów)
- dopasowanie prozodii
- konkatenacja, czyli łączenie segmentów
- synteza sygnału
- mowa
[edytuj] Zobacz też
- Intelligent Web Reader - darmowa przeglądarka internetowa z wbudowanym syntezatorem mowy
- Expressivo - syntezator mowy na komputery domowe