Testu Corpusa

Wikipedia(e)tik

Artikulu honek ez ditu Wikipediaren formatu hitzarmenak betetzen edo ez du sintaxi egokia.
Mesedez, aldatu ezazu bete ditzan. Ez ezabatu ohar hau wikitu arte.

Bi hitzetan definitu beharko bagenu Corpusa zer den, testu bilduma dela esango genuke.

Beñat Oihartzabalek (Euskaltzaindiako Iker Sailburuak) esandakoaren arabera Corpusa hizkuntza baten deskribatzeko eta ikertzeko baliatzen den hizkuntza-datu bilduma da, edo baliabide elektronikoak erabiltzen eta eskaintzen dituena.

Expert advisory group on Language Engineeing Standards, EAGLES-ek dio "a collection of pieces of lenguage that are selected according to explicit linguistic criteria in order to be used as a sample of the lenguage.

UZEI-ek hizkuntzaren ikerketarako oinarrizko tresna dela dio.

[aldatu] Corpus motak

[aldatu] Testu artxiboak

Testu osoak, berezko interesa dutenak. Idatzizkoak eta grabaziozkoak izan daitezke, adibidez literatura obrak, errefrau bildumak, bertso txapelketen grabazioak, ipuin kontaketak etab.

[aldatu] Testu corpusak

Helburu linguistiko batekin osatzen diren bildumak. Testu aztertugabeak. Praktikan testu idatziei baino ez dagokie.

[aldatu] Hizkuntza corpusak

Testu aztertuak (lemak, etiketa morfosintaktikoak, lokuzioak, informazio morfologikoa...)

[aldatu] Erreferentzia corpusak

Hizkuntzaren erabilerari dagokio.

[aldatu] Hizkuntza datu base bereziak

Hizkuntza atalen arabera egituratuak (hiztegia, morfologia, joskera).

[aldatu] Euskaraz dauden korpusak

[aldatu] Orotariko Euskal Hiztegia (OEH)

Hiztegi honek garai, toki eta mota guztietako euskal hitz-ondarea bildu nahi du. Obra deskriptiboa da, eta ez arauemailea. Euskaldunak, mende eta euskalkietan zehar zein hitz eta esapidez baliatu diren eta nola baliatu diren ahalik eta osoen eta zehatzen azaltzea de hiztegi honen xedea. Ia hirurehun liburutik jasotako corpusa aztertuz lau milioitik gorako hitz-altxorrarekin lan egiten da. Hots, tradizioaren bilketa-lanean oinarritzen da proiektua.

Orotariko Euskal Hiztegia corpus diakroniko itxia dela esan dezakegu. 1970. hamarkada arte iristen baita. 310 obra oso "aukeratu" biltzen ditu, 5.800.000 hitzek osatua; kodetu eta lematizatu gabea. Hala ere, euskararen historiaren altxor ezinbestekoa da. Sailkapen orokorra du: epea, euskalkia, eta testu mota zabala.

[aldatu] XX. mendeko euskararen corpus estatistikoa

XX. mendeko euskara jasotzen duen corpus estatistikoa 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

[aldatu] Sailkapen-irizpideak

Epea, garaia: lau garai nagusitan banatzen dira XX. mendeko argitalpenak:

1900-1939: mende-hasieratik gerrak artekoa.
1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegia argitaratu artekoa).
1991-1999: araugintza berriaren ondokoa.

Euskalkiak:

Bizkaiera
Gipuzkera
Zuberera
Lapurtera-Nafarrera: biak bakarrean bilduta
Euskara batua

Sailkatu gabeak: Atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.

Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakin bezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.

Administrazio-idazkiak

Ikasliburuak

Saio-liburuak

Literatura-prosa

Poesia

Antzerkia

Bertsoak

Ikerketa-lanak

Haur- eta gazte-literatura

Ahozkoak: ahozko jardunen transkripzioak

Liturgia

Egunkariak

Aldizkariak

Sailkapen hauek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan.

Autoreak eta izenburuak ere ageri dira, bai liburuen kasuan eta bai aldizkarietako artikuluetan ere, artikulua eta aldizkariaren fitxa jaso baita.

Hasierako zenbakiek (4506500012) obraren erreferentzia adierazten dute:

4 (epea): 1991-1999

5 (euskalkia): euskara batua

6 (obra-mota): saio-liburua

5 (obraren tamaina): 250 orrialdetik gorakoa

00012 (autorea eta obra): Iztueta Armendariz, Paulo: V. Orixe eta bere garaia,Etor,1991 (1.425 or.)

Eta beheko 00021 orrialdea da

Hauek dira corpusaren ezaugarriak; baina badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe.

Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala... nola, hala nola modukoak ere zehaztuz.

Horiek horrela, 101.585 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

[aldatu] Ereduzko prosa gaur

Egun EHU unibertsitatearen euskara zerbitzuak osatzen dihardu beste corpus bat, hainbat literatura obra garaikide bertara bilduz.

Denetara 150 liburu inguru dira eta datu masa 4.200.000 hitzetik gorakoa da. Hitzen artean ikerketak egiteko arakatzaile erangigarri batez ornitua da corpus hori.

[aldatu] Beste Corpus batzuk

Brown Corpusa (1964) da lehen errferentzia corpus elektronikoa,milioi bat hitz besterik ez zuen eta sailkapena oso orokorra zen.

Frantext XVI-XIX.mende bitarteko testu frantsesen bilduma garrantzitsua da.Testuak euskarri informatikoan daude jasota.

Corpusa, gutxi gorabehera, 3500 lanek osatzen dute (karakteretan miliar bat baino gehiago). Edukiaren aldetik ehuneko laurogeia literaturatik dator eta gainerako ehuneko hogeia teknikaren mundutik, diziplina zientifiko ezberdinetatik hartua.

Cobuild-Bank of English Corpus erabilgarria ingelesezko testuaren 400 milioi hitzez osatua da (eskuliburuak, eleberriak, egunkariak, gida-liburuak, aldizkariak eta efemerideak) eta 20 milioi hitz, hizkuntza naturalaren transkripzioetatik aleratuak.

Corpusa berez sailkatuta da, horretarako sorturiko hitz-sailkatzaile baten bidez. Dagoeneko 200 milioi hitz igaro dira galbahe horretatik.

CREA. Egungo Espainieraren Erreferentzia Corpusa.(Corpus de referencia del español actual)

Idatzizko (%90) nahiz ahozko (%10) testuez osatua, 1975etik gaur arte. 2003eko urrian 140 milioi zeukan eta 2004ko abenduan amaituta egotea espero da 160 milioi hitzez.

Testu idatziak dira horretara biltzen direnak, liburuetatik, egunkari eta aldizkarietatik hartuak, gai asko (ehun baino gehiago) tartean direla. Hizkera mintzatua barneratzen da entzutezko osagaien bidez, irrati eta telebistetan burutuak.

CORDE.Espainieraren Corpus diakronikoa. (El Corpus diacrónico del Español)

Espainiera hitz egin den alde eta leku guztietako testuez osatua, hizkuntza bera sortu zenetik 1975.urte arte. CORDE informazioa jasotzeko asmatu zen eta bertara hitzak eta euren esanahiak, gramatika eta beraren erabilera denboraren zehar bildu da.

2003.urteko urrian 180 milioi erregistro baino gehiago zituen. Corpusak prosazko eta bertsozko genero ezberdinak batzen ditu eta gaur ezinbesteko iturburua da Espainierari buruzko edozein ikerketa diakroniko egin ahal izateko.

CTILC Katalanaren testu-corpus informatizatua. (Corpus textual informatitzat de la llengua catalana)

CTILC corpusak Diccionari de la llengua catalana (DIEC)funtsezko osagaia du. 52 milioi inguru hitzez dago osatuta. Kronologiaren ikuspuntutik 150en bat urte hartzen ditu eta morfosintaktikoki etiketatua da.

CORGA Egungo Galegoaren Erreferentiz Corpusa

Egun Interneten kontsulta daitezkeen bertsioak literatura lanak, saioa eta aldizkako argitalpenak dira. Kronologikoki 1975 et 2002.urteen artean argitaratutako testuak osatzen dute. Dokumentuak bibliografikoez gain, testuak medioaren, dataren eta gaiaren arabera daude sailkatuta. CORGA osatzen duten testuak beti dira argitaratuak

Hortaz, Corpusak dira gaur egungo lingüistentzat eta oro har hizkuntzaren erabiltzaileentzat tresnarik ezinbestekoenak.