Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Web Analytics
Cookie Policy Terms and Conditions 中日韓統一表意文字 - Wikipedia

中日韓統一表意文字

维基百科,自由的百科全书

中日韓統一表意文字英語CJK Unified Ideographs),目的是要把分別來自中文日文韓文越文中,本質相同、形狀一樣或稍異的表意文字(主要為漢字,但也有仿漢字如日本國字、韓國獨有漢字、越南喃字)於ISO 10646Unicode標準內賦予相同編碼

越南文後來加入此計劃,所以亦有 CJKV (中日韓越統一表意文字)的稱呼。Unicode亦開始收錄其仿漢字——喃字

目录

[编辑] 版本

ISO 10646 版本 Unicode 版本 新增 置放平面 字數 累計字數
1993 1.0 中日韓統一表意文字 基本多文種平面(BMP) 20,902 20,914
位於「表意文字兼容區」中但實則獨一的漢字 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展A區 基本多文種平面 6,582 27,496
2001 3.1 中日韓統一表意文字擴展B區 表意文字補充平面(SIP) 42,711 70,207
2003第一修訂版 4.1 HKSCS-2004GB 18030-2000 中仍未加入 ISO 10646 的漢字 基本多文種平面 22 70,229
未有 5.1(預計) 中日韓統一表意文字擴展C區 表意文字補充平面(預計) 4,251 74,480

[编辑] 歷史

於1990年代初ISO 10646制訂時,來自台灣的代表提出將源自中國的中日韓漢字予以統一(Unify, ISO術語稱為認同),可以大量節省編碼空間,獲其他代表接納。

[编辑] 字源

[编辑] 最初期統一漢字

最初期的統一漢字(20,902字)字源來自以下字集

  • 中國大陸的G源
    • G0:GB 2312-80:6,763字
    • G1:GB 12345-90:2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
    • G3:GB 7589-87 繁體字:7,237字
    • G5:GB 7590-87 繁體字:7,039字
    • G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
    • G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
  • 台灣的T源
    • T1:CNS 11643-1986 第一字面:5,401+9字(含9個計量用漢字)
    • T2:CNS 11643-1986 第二字面:7,650字
    • TE:CNS 11643-1986 第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字
  • 日本的J源
    • J0:JIS X 0208-90:6,335+1字
    • J1:JIS X 0212-90:5,801字
  • 南韓的K源
    • K0:KS C 5601-87:4,888字(含268個重見字)
    • K1:KS C 5657-91:2,856字

以上的來源字集會實施字源分離原則

另外還有:EACC的ANSI Z39.64-1989、Big5CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese等字集來源。

[编辑] 擴展A區

擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

  • 中國大陸
  • 台灣
    • T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
    • T4:CNS 11643-1992 第四字面
    • T5:CNS 11643-1992 第五字面
    • T6:CNS 11643-1992 第六字面
    • T7:CNS 11643-1992 第七字面
    • TF:CNS 11643-1992 第十五字面
  • 日本
    • JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
  • 南韓
    • K2:PKS C 5700-1:1994
    • K3:PKS C 5700-2:1994
  • 越南
    • V0:TCVN 5773:1993
    • V1:TCVN 6056:1995

[编辑] 擴展B區

擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

  • 康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現的漢字);
  • 汉语大字典》中出現的28,914個未收錄漢字;
  • 辭源》中出現的66個未收錄漢字;
  • 辭海》中出現的247個未收錄漢字;
  • 《汉语大词典》中出現的553個未收錄漢字;
  • 中国大百科全书》中出現的86個未收錄漢字;
  • 北大方正排版系统中出現的65個未收錄漢字;
  • 四庫全書》中出現的522個未收錄漢字;
  • 香港增補字符集中出現的1,081個未收錄漢字;
  • 日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
  • 南韓 PKS 5700-3:1998 中出現的166個未收錄漢字;
  • 北韓 KPS 9566-97 和 KPS 10721-2000 國家標準所收錄的5,642個漢字;
  • 台灣 CNS 11643 的第4至7和15平面所收錄的30,177個漢字;
  • 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收錄的4,232個字喃;

這堆漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。

[编辑] Unicode 4.1漢字

為使 Unicode 向下兼容 GB 18030香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。

[编辑] 擴展C區

按計劃,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。根據IRG N1266號文件,這四千多個漢字分別從以下字典或字集中取得:

  • 中國大陸
  • 澳門
    • 澳門資訊系統字集
  • 台灣
    • CNS 11643-1992 第12字面
    • CNS 11643-1992 第13字面
    • CNS 11643-1992 第14字面
  • 日本
    • 日本國字集(Japanese KOKUJI Collection)
  • 南韓
    • 韓國 IRG 漢字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)
  • 北韓
    • KPS 10721:2003
  • 越南
    • 喃字典(Từ điển chữ Nôm), Nguyễn Quang Hồng, 2006
    • Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
    • Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
  • UTC來源
    • ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
    • 耶穌基督後期聖徒教會香港分會用字
    • Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
    • 宋本《廣韻》
    • 《中国鸟类系统检索》,郑作新等(2000),北京,科学出版社
    • 段玉裁《說文解字注》

[编辑] 字源分離原則

字源分離原則Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇、中國大陸作點、日本作橫,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。

[编辑] 已統一的漢字

原則上ISO 10646只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是閣下電腦提供的字型,未必代表該地區的標準寫法)。

例子:

Unicode 中文 日文 韓文
中國大陸 台灣 香港(註)
U+6D2A
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8

註:不是所有瀏覽器均可分辨「中文-香港」(zh-hk)此一HTML的語言代碼(Language Code)並使用不同的字形。如閣下看到的字形和中國大陸的字形一樣,表示閣下的瀏覽器不能分辨此標籤。截至2005年6月,只有FirefoxMozilla瀏覽器支援此標籤。詳見Test results: Automatic font assignment for CJK text

[编辑] 沒有統一的漢字

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由「把不正統的編入位於基本多文種平面的「相容表意文字區」(Compatibility Ideographs)」起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分離原則文件之中有的字。

[编辑] 注释

    [编辑] 參看

    [编辑] 外部連結


    Unicode 相關的條目
    ISO 10646 通用字符集 | UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4
    Unicode编码表 | 基本多文種平面 | 辅助平面 | 中日韓統一表意文字 | CJKV | IICore
    Static Wikipedia 2008 (no images)

    aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

    Static Wikipedia 2007 (no images)

    aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

    Static Wikipedia 2006 (no images)

    aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu