New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Korpuso - Vikipedio

Korpuso

El Vikipedio

Korpusotekstaro estas aro da tekstoj, kiun oni uzas kiel tuton por studo. Komputado ne necesas, sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭ aro da parolregistraĵoj estas korpuso.

Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj.

Enhavo

[redaktu] Celoj

Sama tekstaro povas taŭgi por pluraj celoj. En la tekstoj oni eble serĉos ekzemplojn de vortuzo por vortarfarado por stilesploro, oni eble atentos oftecon de esprimoj por lingvevolua, filologia enketo, aŭ el ne lingvistika vidpunkto, oni rigardos ĝin materialo por historiosocioscienco.

[redaktu] Tipoj

En la preparo de korpuso oni laŭ la ebloj kaj celoj elektas la kvantojn kaj specojn de tekstoj. Kvantojn oni mezuras per vortnombroj. tekstospecojn oni prefere variigas, se la tekstaro estas por ĝenerala lingvesploro: gazetaĵoj, beletraĵoj, sciencaj artikoloj, kompaniaj raportoj, leteroj... male oni striktigas la elekton se la celo specialas: leteroj kaj privataj dokumentoj se oni observas spontanean parolon, politikaj paroladoj kaj komentoj se oni havas ian sociologian celon, samspecaj tekstoj el sinsekvaj epokoj se oni esploras lingvan evoluon...

Simpla kunmeto de dokumentoj ne estas korpuso. Minimume la tesktoj ricevu unu saman komputan strukturon, iliaj lingvo, dato, aŭtoro aŭ deveno estu laŭeble klare kaj unuece indikitaj laŭ bibliografia normo, kaj bazaj esplorrimedoj estu provizitaj: nombradoj, indeksoj, serĉiloj...

Pro tio kaj ankaŭ por faciligi la komparon de rezultoj de esploroj super pluraj tekstaroj, oni provis normi la prezentojn, ordinare surbaze de sgmlxml. La tekstokoda iniciato, mallonge tei, estas tia sufiĉe konata normo komencita en jaro 1988. sed ĝi ne estas la sola.

La lingvistikaj bezonoj ne limiĝas je haveblo de vortoj. ofte lingvistoj bezonas pliajn informojn pri vortklasoj, vortroloj aŭ aliaj gramatikaĵoj, kaj ankaŭ aliaj sciencistoj pli facile studas la temojn de tekstoj se antaŭanalizo estas provizita. Tial oni distingas inter senmarkaj tekstaroj el nudaj dokumentoj nur formate glatigitaj, kaj markhavaj tekstaroj en kiuj vortojn, frazojn aŭ aliajn erojn akompanas kritikaj informoj. La markojn oni ĵargone nomas etikedoj.

[redaktu] Problemoj

Reprezenta tekstaro ne vere ekzistas, ĉar la kvantoj de diverssspecaj tekstoj en la mondo ne estas superrigardebla. Tekstaro necese entenos 0, 10 aŭ 36 elcentojn da gazetaj artikoloj, sed aserti ke en iu lingvo ekzistas tia aŭ tia elcento da gazetaj tekstoj simple sensencas.

Eĉ en tre granda tekstaro, iuj lingvaj fenomenoj maloftas kaj sekve aperas nur en hazardaj kuntekstoj. La sama esploro super diverse grandaj tekstaroj ofte rezultas malsimile. La ĝusta interpreto de tekstaraj esploroj do komence facilas, sed baldaŭ necesigas almenaŭ prudenton, kaj pli bone statistikan kompetenton.

[redaktu] Ekzemploj

Danke al la teĥnika progreso komputaj tekstaroj aperis fine de la 1960-aj jaroj kaj iĝis vaste uzataj en la 1990-aj kun interreta aliro.

Frua epokfara ekzemplo estis la Brown-a korpuso de normala usonangla lingvo, el la fino de la 1960-aj, kiu unua atingis unu milionon da vortoj. Ĝi estas markhava tekstaro kun propra sortimento de lingvosciencaj vortklasaj markoj.

[redaktu] Eksteraj ligiloj

[redaktu] Vidu ankaŭ jenon:

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu