Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Web Analytics
Cookie Policy Terms and Conditions UTF-32/UCS-4 - Wikipédia

UTF-32/UCS-4

A Wikipédiából, a szabad lexikonból.

Unicode
Kódolások
UCS
Elhelyezkedés
Kétirányú szöveg
BOM
Han egységesítés
Unicode és HTML
Unicode és e-mail
Unicode fontok

UTF-32 és UCS-4 különböző nevei egy, az Unicode karakterek kódolási eljárására, amely pontosan 32 bitet használ minden egyes Unicode kódpont ábrázolására. Ez a módszer a legegyszerűbb kódolási forma, mivel minden más Unicode kódolási séma valamilyen megoldással változó hosszúságú kódokat rendel a különböző kódpont értékekhez.

Ennek ellenére, mivel az UTF-32 4 byte-ot használ minden karakter ábrázolásánál, a megoldás nem a legjobb területkihasználású. Különösen igaz ez a nem-BMP karakterekre, amelyek a legtöbb szövegben nagyon ritkán fordulnak elő, így érdemes lenne egy nemlétező, hossz csökkentési módot megfontolni. Ez azt jelenti, hogy az UTF-32 általban legalább kétszer annyi helyet igényel, mint más kódolási sémák, ami néhány esetben még négyszer akkora helyigényt is jelenthet.

Ugyan az első pillanatban nagyon hasznosnak látszik a fix számú byte kódpontonkénti hozzárendelés, a gyakorlatban mégsem nagyon használják. A viszonylag egyszerűen megvalósított csonkolások miatt az UTF-8 és az UTF-16 elterjedtségével össze sem lehet hasonlítani az elrejedtségét. A fix 4 byte-os hosszak ellenére egyszerűen nem határozható meg a megjelenítés helyigénye (összetett karaketerek miatt), különösen igaz mindez a CJK szóképek esetében, ahol az "egy kódpont karakterenként" elv nem is igaz minden esetben. Az összetett jeleket a szövegszerkesztők sem tudják egyszerre feldolgozni, szemben a többi egy kópont egy szerkesztési egység közelítés miatt.

Ezen okok miatt az UTF-32 a gyakorlatban kevésbé elterjedt, mint az UTF-8 és az UTF-16 a Unicode szövegek normál kódolására/dekódolására.

[szerkesztés] Története

Az eredeti ISO/IEC 10646 szabvány egy 31-bites kódolási formát határozott meg, aminek UCS-4 volt a neve, amelyben minden kódolt karakter az univerzális karakter készlet (UCS) egy elemének felelt meg, és egy 32-bites rendszerehez igazodó, egész kódérték reprezentálta a kódtérben ami a 0 és a hexadecimális 7FFFFFFF közé esett.

Az UCS-4 megfelelt a Unicode kódtér megjelenítésére, mivel ez 1114112 (= 220+216) kódpontot tartalmazott, így a megjelenítéshez csak hexadecimális 10FFFF alatti értékek voltak szükségesek. Többen feleslegesnek tartották, a nagyon nagykód tér fenntartását a relatíve kicsiny kódpontok halmazához, ezért egy új kódolási formát, a UTF-32-t javasolták. Az UTF-32 részhalmaza az UCS-2-nek, és csak 32 bites kódértékeket használ a 0 és a 10FFFF kódtérben.

Az UTF-32 eredetileg az UCS-4 szabvány egy részhalmaza volt, de a JTC1/SC2/WG2 "Principles and Procedures", az "Elvek és eljárások" dokumentuma meghatározta a jövőben minden BMP-hez vagy az első 14 kiegészítő laphoz történő karakter hozzárendeléseket, és visszavonta a megelőző saját használatú kódpozíciók használatát a 60-7F csoportokban az EO és FF közötti lapokon.

Az UCS-4 szerinti valamint az UTF-32 szerinti szabványt most már azonosnak lehet tekinteni, tárolás szempontjából, mivel az UTF-32 szabvány figyelembe veszi a Unicode szemantikájából származó kiegészítő szempontokat is.

[szerkesztés] Lásd még

  • Unicode kódolások összehasonlítása

[szerkesztés] Egyéb, angol nyelvű linkek

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu