Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Web Analytics
Cookie Policy Terms and Conditions Optical Character Recognition - Wikipedia

Optical Character Recognition

Van Wikipedia

OCR staat voor Optical Character Recognition, of in het Nederlands: optische tekenherkenning. Het is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens (karakters) uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer(programma).

Meestal wordt een scanner gebruikt om een afbeelding van het papier te maken en naar de computer te sturen. De afbeelding wordt meestal aangemaakt met een resolutie van 150-300 dpi en opgeslagen in het TIFF formaat. Om goed te kunnen worden geïnterpreteerd door een OCR computerprogramma dient het bestand in zwart-wit opgeslagen te worden met het compressieformaat CCITT G4.

Wanneer alle tekens herkend zijn kan de OCR software verschillende bewerkingen uitvoeren. De meest bekende bewerking is het opslaan van de tekens in een verder bewerkbaar bestandsformaat, waarbij dikwijls zowel de taal van het origineel, de fonts en de opmaak worden gereproduceerd. In dit geval wordt het een "full text" OCR genoemd.

Door OCR'en neemt een A4-pagina met tekst nog maar een paar kilobyte aan geheugenopslag in en is dan weer bewerkbaar in een tekstverwerker.

Inhoud

[bewerk] Contextuele OCR - ICR

In dit geval worden de initiele OCR resultaten gebruikt om verdere analyses uit te voeren om specifieke informatie te gaan zoeken in het gescande beeld. Bijvoorbeeld: indien het gescande beeld een factuur is, zal de analyse proberen uit alle OCR resultaten de verschillende specifieke factuurgegevens te vinden (factuurnummer, datum, BTW, totalen, leverancier, etc.). Dit soort OCR wordt ook wel ICR genoemd (Intelligent Character Recognition). Dit verwijst naar de context waarin de gevonden gegevens geplaatst worden.

[bewerk] Herkennen van gedrukte tekst

Er zijn verschillende fases die doorlopen worden om tekst te herkennen:

  • Controle van de oriëntatie, staat de tekst op z'n kant of op de kop, dan moet de afbeelding eerst geroteerd worden. Ook als de zaak scheef staat is er soms een mogelijkheid om dit min of meer recht te zetten. Deze functie heet vaak in het Engels skew of de-skew, rechte lijnen lopen dan weer recht in plaats van scheef naar boven of onder.
  • Controle van kolommen. Een normale brief bestaat over het algemeen uit één kolom of tekstblok. Een krant daarentegen heeft meerdere kolommen. Een OCR-programma kan dit vaak automatisch herkennen. De volgorde van de tekstblokken en/of kolommen is meestal ook te wijzigen door een soort rangorde met '123' op de bewerkingsknoppen.
  • Tekst en plaatjes scheiden. De tekst wordt afgezonderd van de rest, waarbij het formaat van de plaatjes veelal in .BMP of .JPG (vroeger .PCX) wordt weggezet.

Bij professioneel OCR'en kan de herkenning ook nog numeriek of alfa-numeriek gezet worden, zodat dus alleen cijfers of cijfers+letters worden herkend.

  • Karakterherkenning. De letters worden stuk voor stuk geanalyseerd op welk teken is het, welk lettertype, grootte, enz. en dan vergeleken met voorbeelden van letters waarover het programma beschikt. Soms kan een OCR-programma nieuwe voorbeelden toevoegen (de zogenaamde training-optie), zodat later dezelfde soort letter weer herkend wordt. Vaak worden er ook regels toegepast die beschrijven hoe de taal per lands-aard is opgebouwd.
  • Controle van de woorden met een bibliotheek (library) van alle bestaande woorden, de zogenoemde spellingcontrole. Helaas is bij OCR de beginletter vaak de discutabele letter (denk aan geef, beef, leef, zeef, teef, weef, heeft, enz.) Bij eenvoudige OCR-programma's wordt de woordenlijst (taalafhankelijk!) vaak weggelaten, wat aanzienlijk in tijd en opslagcapaciteit van de harde schijven kan schelen. Intelligente spellcheckers hebben de eigenschap om tijdens het werken ermee alsmaar te groeien in omvang, wat te beperken is door per categorie of onderwerp (medisch, technisch, historisch, e.d.) verschillende woordenlijsten aan te leggen.
  • Exporteren. Tot slot kan het resultaat opgeslagen worden. Daarbij kan vaak gekozen worden in welk formaat en in welke mate de oorspronkelijke opmaak gereconstrueerd moet worden. Zo zal een tekstbestand een andere uitvoer opleveren dan een spreadsheet of PDF-file.

[bewerk] Handschriftherkenning

Wordt met OCR het herkennen van gedrukte tekst bedoeld, handschriftherkenning wordt door sommige leveranciers ook ICR genoemd. ICR staat voor Intelligent Character Recognition. Handschriftherkenning is vele malen ingewikkelder dan het herkennen van gedrukte tekst, vanwege de grote variatie in schrijfwijzen.

Toch wordt deze techniek veel en succesvol ingezet voor het herkennen van handgeschreven teksten op met name formulieren. Doordat de tekst daar op vaste plaatsen staat en ook vaak een specifieke betekenis heeft, b.v. postcode, registratienummer, adres, getal, etc. is er door de softwaresystemen toch een goede herkenbaarheid.

Sinds het einde van de 80'er jaren zijn de eerste commerciële toepassingen beschikbaar gekomen. In de loop der jaren zijn deze sterk verbeterd. Vanaf ongeveer 2000 zijn er ook bruikbare programma's die worden gebruikt in kleine computers (handheld computer of PDA) waar een toetsenbord ontbreekt. Sinds kort zijn er ook pennen op de markt, waarmee je kunt schrijven op papier en daarna op de pc de geschreven tekst omzetten naar getypte tekst.

Toepassingen van handschriftherkenning zijn bijvoorbeeld de sorteercentrales van de posterijen, formulierherkenning (bijvoorbeeld belastingformulieren), enquêteverwerking, schadeformulieren bij verzekeringen, factuurherkenning, etc.

[bewerk] OMR

Naast OCR en ICR bestaat er ook nog OMR (Optical Mark Recognition), dit is een vergelijkbare technologie welke echter gespecialiseerd is in de herkenning van aangevinkte vakjes en zwart gemaakte rondjes (voor toepassingen zoals de Citotoets). Typisch voor deze techniek is over het algemeen het gebruik van formulieren die gedrukt zijn in een bepaalde kleur die bij het scannen wegvalt. Alleen de markeringen blijven dan over waardoor ze nog gemakkelijker door de software herkend kunnen worden.

[bewerk] Barcode

Veel programma's voor herkenning kunnen tevens barcodes ontcijferen die zich op de gescande documenten bevinden.

[bewerk] ITR

Naast OCR, OMR en ICR bestaat er ook nog ITR, Intelligent Textual Recognition. Dit is een programma dat op het internet op zoek gaat naar sites over een bepaald, vooraf ingegeven, onderwerp en hiervan dan een samenvatting maakt.

[bewerk] Digitaliseren

Er is op internet een groeiende club enthousiaste mensen, die middels scannen en OCR de zogenoemde e-books of digitale boeken voor het project Gutenberg maakt. Daarbij gaat het vaak om werken waar geen auteursrecht meer voor geldt, dus oudere literatuur. Ook genealogie- ofwel stamboomenthousiastelingen maken graag van deze techniek gebruik om oude gemeentelijke archieven te digitaliseren.

[bewerk] Zie ook

 
Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu