Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Web Analytics
Cookie Policy Terms and Conditions Puheentunnistus – Wikipedia

Puheentunnistus

Wikipedia

Kieli- ja puheteknologian alaan kuuluvan puheentunnistuksen avulla tietokone tunnistaa ihmisten puhetta. Puheentunnistus on yksi digitaalisen signaalinkäsittelyn sovellutus ja on yksi puheentaltioimismenettelmä.

Sisällysluettelo

[muokkaa] Puheentunnistuksen lajeja

  • Ihminen voi ennalta sovittujen puhuttavien komentojen avulla ohjata tietokonejärjestelmää. Tämä on helpoiten toteutettavissa oleva tehtävä.
  • Ihminen voi käyttää ennalta sovituista sanoista koostuvia sovitun kielioppisäännöstön mukaisia yhdistelmiä vuorovaikutuksessa tietokonejärjestelmän kanssa. Tällaisen avulla voidaan toteuttaa esim. lentolipun varausjärjestelmä tai pankkisovellus, missä keskustelussa tarvitaan numeroilmauksia ja niiden yhdistelyä. Tällaiset järjestelmät ovat mahdollisia toteuttaa puhujasta riippumattomina.
  • Tärkeiden avainsanojen tunnistamista muuten rajoittamattomasta tekstistä (engl. word spotting) tarvitaan sellaisissa vuorovaikutteisessa puheentunnistuksessa, jossa on parempi ohittaa täytesanat ja jahkailut. Esimerkiksi bussiaikataulupalvelussa riittää tunnistaa pysäkkien nimet ja niiden sijamuodot ja pari sanaa.
  • Sanelusovelluksessa kone pyrkii muuttamaan ihmisen vapaan puheen tekstiksi. Tämä on hyvin vaikeaa, jos teksti on rajoittamatonta ja tehtävä onnistuu vain siten, että järjestelmä viritetään kerrallaan yhdelle puhujalle.

[muokkaa] Puheentunnistuksen menetelmiä

Puhe on ääntä ja ääni on ilmanpaineen nopeata värähtelyä, jonka laatu riippuu siitä, miten puhujan hengitys, kurkunpää, kieli, huulet ja muu ääntöväylä äänteitä muodostavat. Todellisuudessa äänisignaalissa on paljon vaihtelua eli samat äänteet ääntyvät eri kerroilla ja eri puhujila eri tavalla. Signaalissa ei myöskään aina ole niin selvästi fysikaalisesti tunnistettavissa olevia äänteitä, kuin miltä ihmiskuulijasta tuntuu.

Puheen vaihtelevuuden takia puheentunnistuksessa joudutaan arvailemaan oikeaa tulkintaa. Mitä selvempiä rajoituksia mahdollisille sanoille on, sen paremmin arvaukset onnistuvat.

Puheentunnistuksen vaiheita ovat esimerkiksi:

  • Analoginen puhesignaali muutetaan digitaaliseksi eli digitoidaan.
  • Digitaalista signaalia käsitellään erilaisilla menetelmillä mm. laskemalla lyhyistä viipaleista puheääntä sen eri taajuuksien osuuksia ja suhteita eli spektrejä (Fourier-muunnos, FFT, jne.).
  • Signaalista pyritään erottamaan jaksot, joissa on puhetta niistä jaksoista, joissa puhuja on hiljaa ja signaalissa on vain taustakohinaa.
  • Taajuusjakautumista lasketaan erilaisia muunnoksia tai tunnuslukuja (esim. cepstreja), jotka kuvaavat tiiviimmällä ja yhdenmukaisemmalla tavalla äänteitä.
  • Tunnuslukujen sarjoille pyritään löytämään todennäköisimmät mahdollisuudet esim. Markovin piilomallien avulla (HMM, engl. Hidden Markov Model).

Tunnistuksen yksikköinä voivat olla esim. difonit eli kahden äänteen yhdistelmistä, missä on ensimmäisen äänteen jälkipuolisko ja toisen äänteen alkupuolisko.

Tunnistuksen tuloksena syntyy arvioita eri tulkintojen todennäköisyyksiksi, ja puheentunnistuksen tehtävänä on tarjota todennäköisin (tai todennäköisimmät) vaihtoehdot. Järjestelmän sallimien kaikkien mahdollisten kielellisten ilmausten kokoelmaa kutsutaan usein kielimalliksi.

[muokkaa] Puheentunnistuksen sovelluksia

  • Matkapuhelin, jolle voi opettaa muutaman nimen ja niihin liittyvän puhelinnumeron, johon puhelin soittaa, jos sille toistaa kyseisen nimen.
  • Hammaslääkärin tuoli, jolle hammaslääkäri voi antaa äänikomentoja (kun kädet ovat kiinni instrumenteissa).
  • Numerotiedotus, jossa käyttäjä sanoo nimen ja järjestelmä antaa luettelosta löytyvän tai löytyviä tilaajia numeroineen.
  • Bussiaikataulupalvelu, jossa asiakas soittaa puhelimella ja voi kysyä esim. "Miten pääsen Hakaniemestä Toukolaan?" ja järjestelmä keskustelee vuorovaikutteisesti tarjoten asiakkaalle vaihtoehtoja.
  • Sanelusovellus, jossa puheella ohjataan tekstinkäsittelyohjelmaa.
  • Kokouksen puheiden taltioiminen, jossa yksi käyttäjä sanelee selkeällä äänellä ja kieliopillisesti oikein kaikkien henkilöiden puheet.

Erityisesti kokouksen puheiden taltioimisessa sovellus on herkkä ulkopuolisille häiriöille, ja puhuminen saattaa häiritä ulkopuolisia. Näin ollen on kehitetty nk. stenomaski, joka mahdollistaa häiriöttömän sanelun.

Käytännössä suurin osa suomenkielisistä puheentunnistusmarkkinoista on keskittynyt sairaaloihin ja lääkärisaneluihin.


[muokkaa] Tuotteita

Suomen kielelle suunniteltuja puheentunnistusohjelmia ovat tehneet ainakin Suomen Puheentunnistus Oy, Philips (FreeSpeech), jota tuo Suomeen Konttorityö Oy ja Lingsoft Oy ja Phonetic Systems.

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu