Jazykový korpus
Z Wikipedie, otevřené encyklopedie
Jazykový korpus je (většinou rozsáhlý) soubor textů v digitální podobě, které jsou v různé míře opatřeny metajazykovými značkami vypovídajícími o samotném textu (autor, rok vydání, žánr apod.) a zařazení jednotlivých slov do kategorie slovních druhů, o frekvenci slova v korpusu, případně dalších lingvistických a frekvenčních aspektech. Některé korpusy jsou budovány jako takzvaně vyvážené, což znamená, že by měly obsahovat vyvážený podíl textů tříděných podle žánrovosti, doby vzniku, případně dalších hledisek (mluvenost, psanost, regionálnost, užívanost apod.). K práci s korpusy se používají speciální programy, které umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. Pro formátování textů a vkládání značek se používá zejména standardizovaného jazyka SGML, případně jeho odnože XML. [1], [2]
Jazykové korpusy rozlišujeme na synchronní a diachronní. Synchronní korpusy jsou budované jako reprezentativní a vyvážené otisky jazyka v určitém relativně krátkém časovém období, během něhož lze považovat jazyk za neměnný systém. Většinou se jedná o korpusy současného jazyka. Diachronní korpusy zachycují jazyk v různých vývojových fázích a obsahují tudíž texty z rozsáhlejších období.
Podle dalšího kritéria rozlišujeme také korpusy jednojazyčné a vícejazyčné. Vícejazyčný korpus se také nazývá paralelní korpus a obsahuje vedle sebe stejné texty v různých jazycích.
Korpusy slouží zejména jako lexikologický a lexikografický nástroj a stávají se mj. zdrojem pro zpracování jednojazyčných výkladových slovníků nebo vícejazyčných překladových slovníků.
Budováním korpusů českého jazyka se v České republice zabývá zejména Ústav Českého národního korpusu, který založil český lingvista František Čermák.