Synthèse vocale
Un article de Wikipédia, l'encyclopédie libre.
![]() |
Cet article est une ébauche à compléter concernant l'informatique, vous pouvez partager vos connaissances en le modifiant. |
La synthèse vocale est la technique de synthèse sonore qui vise à la création artificielle de paroles, via un système de traitement du signal. Elle peut s'inscrire dans un système d'interaction vocale.
Sommaire |
[modifier] Historique
Il y a eu plusieurs techniques de synthèse vocale jusqu'à nos jours.
La première, populaire entre 1965 et 1985, est appelée synthèse vocale par règles. Celle-ci est basée sur la modélisation de la parole à partir d'un spectre sonore. Des règles peuvent être écrites pour générer un spectre sonore artificiel. Cette technique permet des économies de mémoire considérables. La seconde technique, dite par concaténation de diphones, n'est pas purement artificielle. Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres. Cette technique peut être produite avec moins de 10 Méga octets de données sonores. La parole synthètisée semble plus naturelle que celle produite par règles, mais des problèmes persistent lorsque la longueur de phonème, l'intonation et l'accent tonique sont pris en compte. Pour remédier à ces problèmes, il est possible d'augmenter la quantité d'extrait sonore à utiliser pour la concaténation. Plusieurs extraits pour un même diphone peuvent être utilisés dans un même contexte, et plusieurs types de contextes (intonation, accent, type de phrase) peuvent avoir chacun leurs diphones. On parle alors de synthèse par sélection de diphones ou sélection d'unités (Unit Selection). Ceux-ci sont ensuite utilisés lors de la synthèse vocale de façon à réduire les mauvaises transitions. Cette amélioration peut demander des bases de données de diphones de plusieurs Méga octets, voire de plusieurs Giga octets.
[modifier] Techniques
[modifier] Formants
voir Formant
[modifier] Intonation
à rédiger
[modifier] Diphones
Un diphone représente la transition entre deux phonèmes successifs.
[modifier] Voir aussi
[modifier] Liens externes
[modifier] Démos en ligne
- Démonstration de la synthèse vocale par sélection d'unité de la société Européenne Acapela Group
- Démonstration de la synthèse vocale de la société Américaine Cepstral
[modifier] Logiciels
- Cepstral Swift (Windows et Mac OS X)
- Infovox Desktop (Windows)
- SnapVoice (Windows)
- Digit PC (Windows)
- Infovox iVox (Mac OS X)
- Proloquo (Mac OS X)
- Speechissimo (Mac OS X)
- FreeTTS (Java)
- Festival (Linux)
- MBROLA (synthetiseur vocal)
- eLite (Windows & Linux)
- eSpeak (Linux) Synthèse vocale libre pour l'anglais et d'autres langues.
- DECtalk software Synthèse vocale commerciale (Linux) multilangues.
- Sayz Me (Windows, libre, simple d'utilisation, interface en anglais, possibilité d'ajouter des voix pour le français)
- LIA_PHON {Synthèse vocale libre (GPL) à partir de texte quelconque à interfacer avec MBROLA.}
- yread (gratuit, Windows, compatible avec le protocole SAPI 5.1)
[modifier] Références
- Synthèse Vocale et Reconnaisance de la Parole : Droites Gauches et Mondes Parallèles, T. Dutoit, L. Couvreur, F. Malfrère, V Pagel, C. Ris (http://tcts.fpms.ac.be/publications/papers/2002/cfa2002_tdlcfmvpcr.pdf)