Recoñecemento da fala

Na Galipedia, a wikipedia en galego.

O Recoñecemento Automático do Fala (RAH) ou de voz é unha parte da Intelixencia Artificial que ten como obxectivo permitir a comunicación falada entre seres humanos e computadoras electrónicas. O problema que se suscita nun sistema de RAH é o de facer cooperar un conxunto de informacións que proceden de diversas fontes de coñecemento (acústica, fonética, fonolóxica, léxica, morfosintáctica, semántica e pragmática), en presenza de ambigüidades, incertezas e erros inevitables para chegar a obter unha interpretación aceptable da mensaxe acústica recibida.

Índice

1 Deseño dun sistema de RAH
2 Características dos sistemas existentes
3 Opinión
4 Véxase tamén
5 Enlaces externos
6 Referencias

[editar] Deseño dun sistema de RAH

[editar] Aprendizaxe

Un aspecto crucial no deseño dun sistema de RAH é a elección do tipo de aprendizaxe que se utilice para construír as diversas fontes de coñecemento. Basicamente, existen dous tipos:

Aprendizaxe Dedutiva

As técnicas de Aprendizaxe dedutiva baséanse na transferencia dos coñecementos que un experto humano posúe a un sistema informático. Un exemplo paradigmático das metodoloxías que utilizan tales técnicas constitúeno os "Sistemas baseados no coñecemento" e, en particular, os "Sistemas expertos"

Aprendizaxe indutiva

As técnicas de Aprendizaxe Indutiva baséanse en que o sistema poida, automaticamente, conseguir os coñecementos necesarios a partir de exemplos reais sobre a tarefa que se desexa modelizar. Neste segundo tipo, os exemplos constitúenos aquelas partes dos sistemas baseados nos modelos ocultos de Markov ou nas redes neuronais artificiais que son configuradas automaticamente a partir de mostras de aprendizaxe.

Na práctica, non existen metodoloxías que estean baseadas unicamente na aprendizaxe inductiva, de feito, asúmese un compromiso dedutivo-indutivo no que os aspectos xerais fornécense dedutivamente e a caracterización da variabilidade inductivamente.

[editar] Decodificador acústico-fonético

As fontes de información acústica, fonética, fonolóxica e posiblemente léxica, cos correspondentes procedementos interpretativos, dan lugar a un módulo coñecido como decodificador acústico-fonético (ou en ocasións a un decodificador léxico). A entrada ao decodificador acústico-fonético é o sinal vocal convenientemente representado; para iso, é necesario que este sufra un preproceso de parametrización. Nesta etapa previa é necesario asumir algún modelo físico, contándose con modelos auditivos e modelos articulatorios.

[editar] Modelo da linguaxe

As fontes de coñecemento sintáctico, semántico e pragmático dan lugar ao modelo da linguaxe do sistema. Cando a representación da Sintaxe e da Semántica tende a integrarse, desenvólvense sistemas de RAH de gramática restrinxida para tarefas concretas.

Recoñecemento dunha gramática restrinxida

O recoñecemento da gramática restrinxida traballa reducindo as típicas frases recoñecidas a un tamaño máis pequeno cá gramática formal. Este tipo de recoñecemento traballa mellor cando o falante proporciona respostas breves a cuestións ou preguntas específicas: as preguntas "si" ou "non", ao elixir unha opción do menú, un artigo dunha lista determinada, etc. A gramática especifica as palabras e frases máis típicas que unha persoa diría como resposta rápida e despois asocia esas palabras ou frases a un concepto semántico. Por exemplo, un “si” pode entenderse cando se oe un “sip”, “vale”, “yes” ou “okey”, e un “non” cun “nop”, “nada” ou “en absoluto”.

Se o falante di algo que gramaticalmente non ten sentido, o recoñecemento fallará. Normalmente, se o recoñecemento falla, a aplicación incitará ao usuario a repetir o que dixo e o recoñecemento intentarase de novo. Se o sistema está correctamente deseñado e é repetidamente incapaz de entender ao usuario (debido a que non se entendeu ben a pregunta, un acento pechado, interferencias ou demasiado ruído ao redor), retirarase e desviará a chamada a outro operador.

Os modelos da linguaxe máis complexos necesitan para o seu correcto funcionamento grandes corpora de voz e de texto escrito para a aprendizaxe e a avaliación dos correspondentes sistemas. Grazas a eles, pódense abordar gramáticas máis complexas e achegarse ao Procesamento de linguaxes naturais.

[editar] Características dos sistemas existentes

Os sistemas comerciais estiveron dispoñibles dende o ano 1990. A pesar do aparente éxito destas tecnoloxías, moi poucas persoas utilizan o sistema do recoñecemento do fala nas súas computadoras. Parece ser que moitos dos usuarios utilizan o rato e o teclado para gardar ou redactar documentos, porque lles resulta máis cómodo e rápido a pesar do feito de que todos podemos falar a máis velocidade da que tecleamos. Así a todo, mediante o uso de ambos, o teclado e o recoñecemento do fala, o noso traballo será moito máis efectivo.

Este sistema onde está sendo máis utilizado é en aplicacións telefónicas: axencias de viaxes, atención ao cliente, información etc. A melloría destes sistemas de recoñecemento da fala foron aumentando e a súa eficacia cada vez é maior.

Os programas comerciais máis famosos son: