Ahotsaren ezagupena
Wikipedia(e)tik
Ahotsaren teknologia honek ahozko hizkuntzaren ezagutza eta honen testu transformazioa jorratzen ditu. Teknologia hau ahots indibiduala ezagutzeko prestatuta dauden sistemek egiten duten diktaketa jarraia eta oso zehatzetik, domeinu berezietan eta edozein erabiltzailerekin lan egiten duten sistemetaraino hedatzen da.
Ahotsaren Ezagupenaren helburu nagusia mintzatutako aginduen bidez gizaki-makina elkarrekintza egokia proportzionatzea da. Horrela, teknologia honek proportzionatzen dituen emaitzak beste alternatibetatik (teklatu, panel, sagua, etab.) eratorritakoekin kontrastatu beharko dira gizaki-makina elkarrekintzaren prozesuaren kontrol egokia proportzionatzen dutenentz jakiteko. Ahotsaren Ezagupenean oinarritutako sistemak eta beste alternatibak ezberdintzen dituzten ezaugarri nagusiak hauexek dira: komando eta kontrol operazioetan hizketa erabiltzeak suposatzen duen naturaltasuna, eta zehaztasuna eta sendotasuna erabiltzaile eta inguru ezberdinentzako komunikazioan. Lehenengo ezaugarriak Ahotsaren Teknologian oinarritutako sistemen berezko abantaila errepresentatu beharko luke. Baina esperientziak erakutsi digu, hizketa pertsonen arteko komunikazio modu naturala bada ere, gizaki-makina arteko elkarrizketan ez dela legezkoa. Bigarren ezaugarria Ahotsaren Ezagupenaren aplikazioen aurrean kritikoagoa agertzen da. Ahotsaren Ezagupenaren inguruan egindako ikerketen gaurregungo egoerak laborategiek kontrolatutako inguruetan aritzen diren sistemen emaitza ezin hobeak eman ditu. Hala eta guztiz ere, teknologia honen aplikazio erreal batek exigitzen du funtzionamendu bat mundu errealean, non arazoen zailtasun maila garrantzi handiagoko kontua da.
Aplikazio erreal bat bilatzeko premisa hori dela eta, gizaki-makina arteko elkarrizketarako Ahotsaren Ezagupenak proposatzen duen komunikazio modelo generikoa honela adierazi daiteke modu erraz batean:
Eduki-taula |
[aldatu] Ahozko Ezagupenerako komunikazio modelo generikoa
Diagrama honetan, datu-base baten bildutako informaziorako sarrera erabiltzaileak bidalitako ahozko mezu baten ekoizpenarekin hasten da, baina hizketa estilo mugatu bat erabiliz. Ahozko seinaletik hasita, unitate linguistiko (hitzak, fonemak, silabak, etab.) ezberdinei elkartutako patroien ezagupenean oinarritutako klasifikazio prozesu batek komunikazio interfaz bateri permititzen dio erabiltzaileak eskatutako informazioa datu-basetik ateratzea.
[aldatu] Lan eremu nagusiak
Ahotsaren Ezagupen sistemen espezifikazioan eta diseinuan parte hartzen duten lan eremu nagusiak:
- Ahozko seinalearen prozesua
- Patroien ezagupenerako teknikak
- Hizketa estilo ezberdinak
- Mintzalariarekiko menpekotasuna
- Hiztegiarekiko menpekotasuna
- Ezagupenerako gramatikak
[aldatu] Ahozko seinalearen prozesua.
Ezagutzaile batek egin beharreko lehenengo gauza sisteman sartuko den ahozko seinalea prozesatzea da, guk egin behar dugun zereginerako nabarmena den informazio akustikoa erauzteko helburuarekin.
[aldatu] Patroien ezagupenerako teknikak.
Patroien ezagupena ezagupen sistema guztien teknika zehatzena da. Modulu honek, ahotsaren errepresentazio parametrikotik hasita, klasifikazio prozesu bat egiten du patroi multzo bat erabiliz. Patroi hauek sistemaren entrenamendu fase batetik lortzen dira eta unitate linguistiko (hitzak, silabak, soinuak, fonemak) multzo bat agertzen dute. Prozesu honen berezitasun handiena, zeinak bere zailtasuna azpimarratzen duen, ahotsaren abiadurek edota modu ezberdinek ekoiztutako unitate linguistiko batek aurkeztu dezakeen barietate denborala da. Hori dela eta, patroien ezagupenerako erabilitako lehenengo teknikak Programazio Dinamikoko algoritmoen bidezko Lerrokadura Denboralean (DTW teknikak) oinarritutakoak izan ziren. Geroago iraupen aldakorreko sekuentziak adierazteko prozesu estokastikoen modelaketak permititzen duen malgutasun handienari heldu egin zitzaion. DTW tekniken alternatiba zehazki Markov -n Modelo Ezkutuak (HMM) izan ziren. Gaur egun Sare Neuronalek (Redes Neuronales) erakutsitako potentziak eta klasifikaziorako kapazitate ezin hobeek bihurtzen dute hauek HMM -ren alternatiba posiblea.
[aldatu] Hizketa estilo ezberdinak.
Ezagupen sistema baten aurrean hitz egiteko funtsezko hiru modu bereizten dira:
- Hitz isolatuak: Erabiltzaileak ahoskatzen du hitz bakar bat zeina sistemak ezagutu beharko duen.
- Hizketa lotua: Erabiltzaileak era jariakorrean mezu bat ahoskatzen du hiztegi oso mugatu bat erabiliz.
- Hizketa jarraia: Esaldien ahoskera modu naturalean hiztegi zabal batentzat.
Arestian aipatutako funtsezko hiru moduez gain, ahotsaren ezagutzaileek, hizketaren modelaketa indartsu bat egin ahal izateko, hurrengo hiru aspektuei aurre egin behar diete:
- Testuinguruko ezagupena edo word spotting: Hitz isolatuen ezagupenean bereziki erabiltzen den teknika honek beste hitz edo ahoskeren testuinguruan ezagutuko diren hiztegiko hitzen presentzia detektatzea du helburu. Gehienetan testuingurua erabiltzaileak hitz isolatu bakar baten ahoskerari egokitzeko aurkitzen duen zailtasunaren emaitza da. Beste batzuetan, testuinguruan egiten den ezagupena da konponbide egokia akustikoki kontrakoak diren giroetan ezagupena sendotzeko.
- Ukapena: Soinu ez desiragarrien (zaratak, hiztegitik kanpo dauden soinu edo hitzak) presentziaren beste efektu bat benetan ahoskatu ez diren hitzen ezagupena eragitea da. Ukapen tekniken helburua soinu ez desiragarri horien identifikazioa ezagupenaren emaitzen artean sartzen uztea da. Ezagupen sistema baten eraginkortasunari begira, garrantzi handiko arazo baten aurrean aurkitzen gara.
- Hainbat hautagai: Ezagutzaile batek egiten duen patroien ezagupenaren prozesua ezagututako hitz edo hitzen sekuentzia onena zein den erabakitzeko puntuazio altuena eskaintzen duen patroiaren identifikazioan oinarritzen da. Prozesu hau informazio akustikoan soilik oinarritzen da, kontutan hartu gabe hautagai dauden hitz edo hitz sekuentzia ezberdinen puntuazioak kontenplatzeko erabil zitezkeen beste ezagutza-iturri posibleak. Kasu gehienetan, ezagutzailea aurkitzen den aplikazioa hainbat ezagupen hipotesien artean beharrezko informazioa aukeratzea baimenduko duena da. Ezagutzaile bati ezagupenaren N hipotesia maneiatzeko malgutasuna edukitzea permititzen dioten prozedurak N-best deitzen dira.
[aldatu] Mintzalariarekiko menpekotasuna.
Mintzalariaren menpekotasun mailak zehazten du sistemak mintzalari mugatu bati egokitutako unitate linguistikoen patroiak eransten dituen eta, beraz, berarentzat bakarrik funtzionatuko du zuzenki, edo patroiek edozein hiztunentzat baliogarri izatea nahi baldin baduten. Lehenengo kasuan mintzalariaren menpeko ezagupenaz hitz egiten da, bigarrenean mintzalariarengandik independentea den ezagupenaz.
[aldatu] Hiztegiarekiko menpekotasuna.
Ezagutzaile baten prestamenak hiztegiaren tamaina eta zailtasun mailaren menpean daude neurri handi baten. Hau da, sistemak ezagutu dezakeen hitz kopuruaren eta hauen ezagupenaren zailtasun handiago edo txikiagoaren menpe hitzen arteko antzekotasun fonetikoaren arabera. Gaur egun hiztegi txiki (50 hitz baino gutxiago), ertain (50etik 500erainoko bitarteko hitzak) zein handietarako (500 hitz baino gehiago) sistemak diseinatzen dira.
Hiztegiaren beste dimentsio garrantzitsu bat hiztegi finko eta malguen arteko bereizgarritasunari dagokiona da. Aplikazio zehatz bat, ezagupena egiten ari denean, beti hiztegi finko baten gainean arituko da. Baina kasu askotan hiztegi hori aldatu edo gaurkotu egin beharko da hitz berriak ezabatu edota sartzeko. Tradizionalki, hiztegiaren aldakuntza batek sistemaren patroien berrantolaketa eta datu-base berri bat biltzeko prozesu luze eta neketsu bat hastea suposatzen zuen. Gaur egun badaude hainbat hurbilketa hiztegi malgua duen sistema bat lortzeko, zeinak ez baitu behar berrantolaketa hiztegi berri bakoitzarentzat.
[aldatu] Ezagupenerako gramatikak.
Hiztegiko hitzak gehiagotu egiten diren heinean, konbinazio posibleak ere hazi egiten dira modu esponentzialean. Horregatik, ezinbestekoa bihurtzen da murrizketak barneratzea. Murrizketa horiek arau sintaktiko eta semantikoetan oinarritutako gramatikak dira eta hitz kopurua murriztea dute helburu.
Eginkizun zehatz batek suposatzen duen zailtasun maila mugatzeko erabiltzen den neurriari harridura (perplejidad) esaten zaio. Beraz, harridura maila baxu batek hautagai dauden hitz kopurua ere baxua dela adierazten du, eta harridura maila altu batek kopurua altua dela eta hortaz, ezagupena zailagoa izango da.
[aldatu] Ahozko Ezagupen sistema nagusiak
80. hamarkadaren hasieran Estatu Batuetako hamar konpainia baino gehiagok mintzalariaren menpeko hitz isolatuentzako ezagutzaileak eskaintzen zituzten, zeinek 300 hitzez osotutako hiztegiak zeuzkaten. VERBEX eta NEC enpresek bakarrik mintzalariarengandik independentea den eta hitz lotuak ezagutu ditzakeen sistema bat eskaintzen zuten. Momentu horretan Ahotsaren Ezagupenaren egoera honela laburbildu daiteke:
- Mintzalariaren menpeko hitz isolatuentzako ezagutzaileak teknologia nagusia bezala.
- Mintzalariarengandik independenteak diren ezagutzaileak eta hitz lotuen ezagutzaileak teknologia berriak bezala.
Beste alde batetik, banda - zabalean (ancho de banda) zeuden mugak eta zarataren aurreko sentsibilitatea zirela eta, hauetariko ezagutzaile batzuk bakarrik lan egiten zuten sare telefonikoaren gainean. Garai honetan telekomunikazioen esparruaren barneko Ahotsaren Ezagupenaren hiru aplikazio bakarrik aurkitzen ditugu literaturan:
- Mintzalariarengandik independenteak diren hitz isolatuentzako ezagutzaileen bi prototipo, sare pribatuan ahotsaren bidezko markazioa egiteko eta hitzen ezagupenerako.
- Mintzalariaren menpekoa den hitz isolatuentzako ezagutzaile bat ahots bidezko telefono zenbakien markazioari aplikatuta.
Azken hamar urteetan zehar Ahotsaren Ezagupenaren gainean egindako ikerketen ondorioz, asko dira gaur egun mintzalariarengandik independenteak diren hitz isolatuentzako (digituak eta komando kopuru txiki bat) ezagutzaileak dauzkaten konpainiak. Sistema hauek, gehienbat, telekomunikazio aplikazioetan erabiltzeko diseinatuta daude.
Etorkizun handiena daukaten ezagupen-sistemen bilakaera, hiztegi handietarako ezagupenak eta hizketa jarraiak, hurrengo sistema esperimentalak dauzkate errepresentatzaile onenak bezala:
[aldatu] BYBLOS
BBN -k garatuta. Byblos feniziar hiri baten izena da, non eskritura fonetikoaren lehenengo aztarna aurkitu zen. Izendapen honek oinarri fonetiko baten gainean sistemak garatzeko gaur egun ipintzen den gogoa azpimarratzen du. Sistema honek, mintzalariaren menpeko sistema bat izan arren, N-best algoritmoetan oinarritutako ezagupen azkarra egiten duen prozedura berri eta eraginkor bat sortarazi du.
[aldatu] TANGORA
IBM -n garatuta. Hau ere hiztegi handietarako mintzalariaren menpeko sistema bat da. Bere interes printzipala da 1200 hitzez osotutako 100 esaldi irakurtzeko 20 minutu besterik ez behar duen dituen mintzalari berri batekiko egokitutako prozesua.
[aldatu] SPHINX - II
Carnegie-Mellon Unibertsitatean (CMU) garatuta. Hiztegi handietarako mintzalariarengandik independentea den ezagupen-sistema aitzindari bat da. Bere arestiko berrikuntza VOCIND prozedura da, zeinak sistema egiten duen hiztegitik independentea.
[aldatu] LINCOLN
Lincoln laborategian garatuta. Bere emaitza printzipala ahots azkarreko modelaketa da.
[aldatu] DECIPHER SRI
SRI International -ean garatuta. Bere berrikuntza printzipala garrantzizko aspektu fonetikoek (hitzen arteko koartikulazioa, besteak beste) zehaztutako errepresentazioa izan zen.
[aldatu] ATR HMM - LR ATR
ATR -n garatutako sistema japoniar hau fonema edo hitz modeloen bitarteko egiturarik erabiltzen ez duten soinuen modelaketaren prozedura zehatzean oinarrituta dago.
[aldatu] CSELT
Izen berbera daukan zentru italiarrean garatutako sistema honen berrikuntza printzipala bilakuntza azkarra egiten duen sistema bat da. Bilakuntza azkar honek lehenengo eta behin deszifraketa sinple eta azkar bat egiten du eta gero bilaketa zehatzago bat.
[aldatu] PHILIPS
Izen bereko enpresak garatutako sistema honek hizketa jarrairako ezagupen prozesu azkarra eta 10.000 hitzetako hiztegi berria dauzka.
[aldatu] AT&T -k eta Bell Northern Research
AT&T -k eta Bell Northern Research -k (BNR) egindako sistema telefonikoak. Sistema biek zerbitzu telefonikoen automatizazio-aplikazioetarako prozedura zehatzak dauzkate.