Recoñecemento da fala
Na Galipedia, a wikipedia en galego.
O Recoñecemento Automático do Fala (RAH) ou de voz é unha parte da Intelixencia Artificial que ten como obxectivo permitir a comunicación falada entre seres humanos e computadoras electrónicas. O problema que se suscita nun sistema de RAH é o de facer cooperar un conxunto de informacións que proceden de diversas fontes de coñecemento (acústica, fonética, fonolóxica, léxica, morfosintáctica, semántica e pragmática), en presenza de ambigüidades, incertezas e erros inevitables para chegar a obter unha interpretación aceptable da mensaxe acústica recibida.
Índice |
[editar] Deseño dun sistema de RAH
[editar] Aprendizaxe
Un aspecto crucial no deseño dun sistema de RAH é a elección do tipo de aprendizaxe que se utilice para construír as diversas fontes de coñecemento. Basicamente, existen dous tipos:
- Aprendizaxe Dedutiva
As técnicas de Aprendizaxe dedutiva baséanse na transferencia dos coñecementos que un experto humano posúe a un sistema informático. Un exemplo paradigmático das metodoloxías que utilizan tales técnicas constitúeno os "Sistemas baseados no coñecemento" e, en particular, os "Sistemas expertos"
- Aprendizaxe indutiva
As técnicas de Aprendizaxe Indutiva baséanse en que o sistema poida, automaticamente, conseguir os coñecementos necesarios a partir de exemplos reais sobre a tarefa que se desexa modelizar. Neste segundo tipo, os exemplos constitúenos aquelas partes dos sistemas baseados nos modelos ocultos de Markov ou nas redes neuronais artificiais que son configuradas automaticamente a partir de mostras de aprendizaxe.
Na práctica, non existen metodoloxías que estean baseadas unicamente na aprendizaxe inductiva, de feito, asúmese un compromiso dedutivo-indutivo no que os aspectos xerais fornécense dedutivamente e a caracterización da variabilidade inductivamente.
[editar] Decodificador acústico-fonético
As fontes de información acústica, fonética, fonolóxica e posiblemente léxica, cos correspondentes procedementos interpretativos, dan lugar a un módulo coñecido como decodificador acústico-fonético (ou en ocasións a un decodificador léxico). A entrada ao decodificador acústico-fonético é o sinal vocal convenientemente representado; para iso, é necesario que este sufra un preproceso de parametrización. Nesta etapa previa é necesario asumir algún modelo físico, contándose con modelos auditivos e modelos articulatorios.
[editar] Modelo da linguaxe
As fontes de coñecemento sintáctico, semántico e pragmático dan lugar ao modelo da linguaxe do sistema. Cando a representación da Sintaxe e da Semántica tende a integrarse, desenvólvense sistemas de RAH de gramática restrinxida para tarefas concretas.
Recoñecemento dunha gramática restrinxida |
O recoñecemento da gramática restrinxida traballa reducindo as típicas frases recoñecidas a un tamaño máis pequeno cá gramática formal. Este tipo de recoñecemento traballa mellor cando o falante proporciona respostas breves a cuestións ou preguntas específicas: as preguntas "si" ou "non", ao elixir unha opción do menú, un artigo dunha lista determinada, etc. A gramática especifica as palabras e frases máis típicas que unha persoa diría como resposta rápida e despois asocia esas palabras ou frases a un concepto semántico. Por exemplo, un “si” pode entenderse cando se oe un “sip”, “vale”, “yes” ou “okey”, e un “non” cun “nop”, “nada” ou “en absoluto”.
Se o falante di algo que gramaticalmente non ten sentido, o recoñecemento fallará. Normalmente, se o recoñecemento falla, a aplicación incitará ao usuario a repetir o que dixo e o recoñecemento intentarase de novo. Se o sistema está correctamente deseñado e é repetidamente incapaz de entender ao usuario (debido a que non se entendeu ben a pregunta, un acento pechado, interferencias ou demasiado ruído ao redor), retirarase e desviará a chamada a outro operador. |
Os modelos da linguaxe máis complexos necesitan para o seu correcto funcionamento grandes corpora de voz e de texto escrito para a aprendizaxe e a avaliación dos correspondentes sistemas. Grazas a eles, pódense abordar gramáticas máis complexas e achegarse ao Procesamento de linguaxes naturais.
[editar] Características dos sistemas existentes
Os sistemas comerciais estiveron dispoñibles dende o ano 1990. A pesar do aparente éxito destas tecnoloxías, moi poucas persoas utilizan o sistema do recoñecemento do fala nas súas computadoras. Parece ser que moitos dos usuarios utilizan o rato e o teclado para gardar ou redactar documentos, porque lles resulta máis cómodo e rápido a pesar do feito de que todos podemos falar a máis velocidade da que tecleamos. Así a todo, mediante o uso de ambos, o teclado e o recoñecemento do fala, o noso traballo será moito máis efectivo.
Este sistema onde está sendo máis utilizado é en aplicacións telefónicas: axencias de viaxes, atención ao cliente, información etc. A melloría destes sistemas de recoñecemento da fala foron aumentando e a súa eficacia cada vez é maior.
Os programas comerciais máis famosos son:
- Via Voice de IBM
- Dragon Naturally Speaking
En software libre hai:
- CVoiceControl Grávase a orde como adestramento.
- PerlBox Sen adestramento, pero en inglés.
[editar] Opinión
- Opinións de Dragon Naturally Speaking
- Opinións de Via Voice
- Artigo sobre software de recoñecemento de voz
[editar] Véxase tamén
- Lingüística computacional
- Procesamento de linguaxe natural
[editar] Enlaces externos
(en inglés)
(en inglés)
- Proxecto dunha base de datos acústicos da lingua española. Joaquim Llisterri, Dolors Poch. Congreso da Lingua Española, Sevilla, 1992
- Lab9 Solutions SpeechLab SDK - MobileSpeech