Synthèse vocale

Un article de Wikipédia, l'encyclopédie libre.

Cet article est une ébauche à compléter concernant l'informatique, vous pouvez partager vos connaissances en le modifiant.

La synthèse vocale est la technique de synthèse sonore qui vise à la création artificielle de paroles, via un système de traitement du signal. Elle peut s'inscrire dans un système d'interaction vocale.

[modifier] Historique

Il y a eu plusieurs techniques de synthèse vocale jusqu'à nos jours.

La première, populaire entre 1965 et 1985, est appelée synthèse vocale par règles. Celle-ci est basée sur la modélisation de la parole à partir d'un spectre sonore. Des règles peuvent être écrites pour générer un spectre sonore artificiel. Cette technique permet des économies de mémoire considérables. La seconde technique, dite par concaténation de diphones, n'est pas purement artificielle. Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres. Cette technique peut être produite avec moins de 10 Méga octets de données sonores. La parole synthètisée semble plus naturelle que celle produite par règles, mais des problèmes persistent lorsque la longueur de phonème, l'intonation et l'accent tonique sont pris en compte. Pour remédier à ces problèmes, il est possible d'augmenter la quantité d'extrait sonore à utiliser pour la concaténation. Plusieurs extraits pour un même diphone peuvent être utilisés dans un même contexte, et plusieurs types de contextes (intonation, accent, type de phrase) peuvent avoir chacun leurs diphones. On parle alors de synthèse par sélection de diphones ou sélection d'unités (Unit Selection). Ceux-ci sont ensuite utilisés lors de la synthèse vocale de façon à réduire les mauvaises transitions. Cette amélioration peut demander des bases de données de diphones de plusieurs Méga octets, voire de plusieurs Giga octets.

[modifier] Techniques

[modifier] Formants

voir Formant

[modifier] Intonation

à rédiger

[modifier] Diphones

Un diphone représente la transition entre deux phonèmes successifs.

[modifier] Voir aussi

[modifier] Liens externes

[modifier] Démos en ligne

Démonstration de la synthèse vocale de SVOX

Démonstration de la synthèse vocale de Nuance (RealSpeak)

Démonstration de la synthèse vocale de la société italienne Loquendo

Démonstration en ligne de Synthèse Vocale de SitePal

Démonstration de la synthèse vocale de Multitel ASBL

[modifier] Logiciels

Cepstral Swift (Windows et Mac OS X)

Infovox Desktop (Windows)

SnapVoice (Windows)

Digit PC (Windows)

Infovox iVox (Mac OS X)

Proloquo (Mac OS X)

Speechissimo (Mac OS X)

FreeTTS (Java)

Festival (Linux)

MBROLA (synthetiseur vocal)

eLite (Windows & Linux)

Festival

eSpeak (Linux) Synthèse vocale libre pour l'anglais et d'autres langues.

DECtalk software Synthèse vocale commerciale (Linux) multilangues.

Sayz Me (Windows, libre, simple d'utilisation, interface en anglais, possibilité d'ajouter des voix pour le français)

LIA_PHON {Synthèse vocale libre (GPL) à partir de texte quelconque à interfacer avec MBROLA.}

yread (gratuit, Windows, compatible avec le protocole SAPI 5.1)

[modifier] Références

Synthèse Vocale et Reconnaisance de la Parole : Droites Gauches et Mondes Parallèles, T. Dutoit, L. Couvreur, F. Malfrère, V Pagel, C. Ris (http://tcts.fpms.ac.be/publications/papers/2002/cfa2002_tdlcfmvpcr.pdf)

Récupérée de « http://fr.wikipedia.org../../../s/y/n/Synth%C3%A8se_vocale.html »

Catégories : Wikipédia:ébauche informatique • Interface utilisateur • Traitement de la parole • Traitement automatique du langage naturel