Skoazell:Unicode
Diwar Wikipedia, an holloueziadur digor
Ur standard stlenn eo Unicode. Savet eo bet gant Consortium Unicode, evit reiñ da bep arouezenn e ne vern peseurt reizhiad doare-skrivañ, un niver, un anv hag ur c'hodadur hepken, en un doare unvan, a ya en-dro war ne vern peseurt reizhiad urzhiataerezh pe meziant.
Taolenn |
[kemmañ] Pal
Unicode, embannet en 1991 evit ar wezh kentañ, a zo bet krouet evit kemer lec'h ar c'hodoù evel ISO-8859-1, ma oa meur a hini anezho evit meur a rumm yezh.
E gwirionez n'eo ket bet goloet an holl sistemoù skritur c'hoazh, abalamour da labourioù enklask ret n'hallont bezañ graet nemet gant arbennigourien, evid arouezennoù diboaot-kenañ pe sistemoù nebeut-anavezet (re ar yezhoù marv, lakaomp).
Memes-tra e kaver dija e-barzh Unicode an taol vras deus ar sistemoù implijet tro-dro ar bed.
[kemmañ] Normoù ha versionoù
Da heul ar labour war Unicode ec'h-a an heni war an norm ISO/CEI 10646 hag en deus ar memes palioù. An ISO/CEI 10646, un norm internaçional embannet en galleg hag en saosneg, na zivis ket na reolenn komposiñ-karakterioù, nag o ferzh semantik.
Unicode en-em okupa deus ar c'h-casse, deus urzh an alfabet, ha deus penaos kombinañ sinoù-diforc'hañ ha karakterioù.
Ar c'harakterioù e-barzh ar versïon Unicode 3.0 a so identifïet memes-mod e-barzh an norm ISO/CEI 10646:2000.
Ar versïon Unicode 3.2 a glassa 95 221 a garakterioù, a simboloù pe a direktivoù.
Ar versïon aktuel a so an heni 4.0.1 deus meurzh 2004.
Problemoù a chom, (ha kudennoù marsen), ewid kodiñ ar c'h-karakterioù chineseg.
[kemmañ] Limit an oktet
Pa ra an ASCII gant 7 bit, hag an doareoù ISO 8859 (evel an ISO 8859-1 pe latin-1) gant 8, e oa ezomm ewid Unicode ouzhpenn 8 bit. Ar limit a oa bet lakaet da 16 bit d'ar penn kentañ, med bremañ e soñj an dud e vo ezomm 20 pe martrese 21 bit.
[kemmañ] UTF, Unicode Transformation Format
Ewid resonioù a beb sort e vez kenniget gant Unicode tri mod da godiñ ur c'harakter (ur simbol) : an UTF-8, an UTF-16 hag an UTF-32. Ar chifr goude « UTF » a zivis ped bit a so neçesser, d'an nebeutañ, ewid kodiñ ur c'harakter.
[kemmañ] UTF-8
An UTF-8 an-heni vez implijet ar muioc'h ewid Internet. Gantañ e vez kodet karakterioù so gant 1 oktet (ar letrennoù ASCII), karakterioù all gant 2 (ar letrennoù gant sinoù-diforchañ), pe gant 3. Skañvoc'h eo ewid pezh sell deus an implij-memor (med torr-penn-oc'h ewid skriviñ algoritmoù). En ur mod iwe ema an UTF-8 kompatibl gant ar programmoù kozh.
Da skwer e vo kodet gant UTF-8 an é evel « é », hag ar chadenn a bewar c'harakter Zokén vo « Zokén ».
[kemmañ] UTF-16
An UTF-16 en em laka hanter-hent etre espern ar memor hag aested ar programmiñ. An taol vras deus ar c'harakterioù Unicode bet diviset beteg bremañ (an implijetañ) a so kodabl gant 16 bit. Setu e vez koded gantañ toud ar c'harakterioù gant 2 oktet, nemed un nebeud re. Java a ra gantañ.
[kemmañ] UTF-32
Gantañ e vez kodet toud ar c'harakterioù war 4 oktet ingal.
[kemmañ] Ar fontoù Unicode
Unicode ne ra ked med listañ karakterioù ha roiñ un niverenn da beb heni. Ne lar ked penaos treçañ anehe war ar skramm pe war ar paper (ne zivis ked ou glifoù).
N'eus ked a v-bijeksion etre treçadur ar c'harakter hag é niverenn, evel en ur font ASCII pe latin-1.
Da skwer ez eus daou vod da godiñ un é : dre niverenn an é (un glif prekomposet), pe dre niverenn an 'e' heuliet gant niverenn an tired boud heb chasse (ur c'homposadur). Ewid ar lagad e vez gwelloc'h implijañ glifoù prekomposet.
Un dra all, gant sistemoù skritur so, evel an devânagarî pe an alfabet arab, e vez ur bern labour ewid komposiñ ligaturioù : ar graphem a chañj herwez é blaç ba'r ger, herwez ar grafemoù all tro-dro dehañ.
Setu ema delikat koms deus ur font Unicode. Kaoud ur font gant toud an treçadennoù possubl n'eo ked a-walc'h : red eo kaoud ur moteur gouest da zivisañ pezh-sort heni implijañ. Doc'h an tu all, e oar ur font Unicode kals a draou n'int ked e-barzh Unicode anehe...
[kemmañ] Liammoù diavaez
- Ar C'honsortium Unicode
- fontoù ha benwegoù :
- Fontoù TrueType:
- Arial Unicode MS, Code2000 : titouroù-liçans ha liamm-downloadiñ,
- Junicode : titouroù-liçans ha liamm-downloadiñ,
- Titus Cyberbit Basic : titouroù-liçans & liamm-downloadiñ
- Fontoù ha benwegoù Unicode ewid X Window
- Fontoù TrueType: