Microsoftコードページ932
出典: フリー百科事典『ウィキペディア(Wikipedia)』
Microsoftコードページ932(以下CP932)は、マイクロソフト及び、MS-DOSのOEMベンダがShift_JISを独自に拡張した文字コードである。また同時に、CP932はShift_JISのWindowsアプリケーションにおける「実装」を指す用語であるとも言える。
この項では、主にShift_JISにおけるマイクロソフトおよび各ベンダの独自拡張部分について言及する。ベンダ独自拡張部分以外の内容については、Shift_JISを参照されたい。
また、マイクロソフト標準キャラクタセットの項目も併せて参照されたい。
[編集] CP932の呼称(別名)の整理
- Windows-31J … Windows 3.1(J)のリリースに合わせて、マイクロソフトがIBMと日本電気 (NEC) のコードを統合して作った符号化文字集合。1993年以降、マイクロソフトが自社のドキュメント等で「CP932」という用語を使って表している対象は、常にこの「Windows-31J」である。この名前はIANAに登録されている。
- MS932 … Javaで、「IBMのOEMコードページ932」と「Windows-31J」を区別するための用語。
- CP932 … MS-DOSとWindowsにおける日本語コードページを表す用語。「Windows-31J」が制定されるまでは、OEMベンダによって文字集合が違う。
- MS漢字コード … 「CP932」とほぼ同じ意味の用語である。マイクロソフトが(Shift_JISという符号化方式を)策定したという点や、マイクロソフトが(JIS X 0208という文字集合に対して)文字を独自に追加した点を強調したい場合に用いられる。また、単に「シフトJIS」のことを指している場合も有るので注意が必要。
- OEMコードページ932 … Windows 3.1日本語版の発売以前における、OEMベンダ各自の拡張を許した仕様の文字セット。
以下は、マイクロソフトから離れ、現在では公的機関からも認められた文字符号化方式を指す用語である。
- シフトJIS… JIS X 0208符号化文字集合を一定の規則に従ってシフトした文字符号化方式。具体的な内容はJIS X 0208-1997に「シフト符号化表現」として記載がある。しかしながら、文脈によってはベンダ拡張されたコードセットを指している場合もあるので注意すべき。
- Shift_JIS … 「シフトJIS」のIANA登録名。
- SJIS … Shift_JISの短縮形。JavaではShift_JISと同義語。
[編集] CP932の誕生から統合まで
CP932が、現在の「Windows-31J」の形として完成に至るまでには複雑な経緯がある。
1982年(JIS X 0208-1983策定の前年)、JIS C 6226を複雑にシフトさせた文字符号化方式としてShift_JISが誕生した。この符号化方式(を利用した拡張符号化文字集合)はマイクロソフトにより、MS-DOSにおける標準日本語コードとして採用され、「コードページ932(CP932)」という管理番号を与えられた。
1983年、IBMは、日本語処理に重点を置いたデスクトップコンピュータ「マルチステーション5550」を発売することとなる。このコンピュータで利用する符号化文字集合を以下のように定めた。
IBMのコードページ932の概要 |
---|
|
こうして出来たDBCS-PCは1990年発売のDOS/Vにも引き継がれることとなる。
一方NECは、1983年にPC-9800シリーズの漢字処理オプション提供を開始した。特に、MS-DOSおよびCP/M-86搭載機における漢字ROMに収容する文字集合を以下のように定めた。
PC-9800仕様OEMコードページ932の概要 |
---|
|
ところで、マイクロソフトはMS-DOSにおける唯一の日本語用コードページである「CP932」をOEMメーカーの自由に任せていた。NECのPC-9800シリーズ、IBMのDOS/V、富士通のFMRシリーズなどは全てMS-DOSを搭載しているコンピュータであり、搭載されている文字符号化方式もShift_JISを採用しているにもかかわらず、登録されている文字集合がバラバラであった。
ところが、マイクロソフトは1993年、Windows3.1の日本語版を出すにあたり、「CP932」の仕様をOEMの自由に任せるという方針を撤回した。日本のパーソナルコンピュータ市場で、特に大きなシェアを持つ上記2社の統合コードをWindowsにおける日本語標準コードとし、また、これをIANAに「Windows-31J」という名で登録したのである。[6][7]
統合の概要は以下のとおりである。
MicrosoftによるIBM&NEC統合の概要 |
---|
|
上記の統合以後は、「CP932」と言えば、マイクロソフトの技術文書以外でも、一般的に「Windows-31J」を指すようになった。しかし、統合前の文字セットが、全く利用されなくなったというわけではない。例として、Javaで、「CP932」がIBMの「CP932」を指し、「MS932」が「Windows-31J」を指すことが挙げられる。[8]
[編集] Windows-31Jに重複登録されたコード
前節で触れたように、「Windows-31J」はNECとIBMのそれぞれのコードを統合して作られた経緯があるため、統合の過程で重複する文字が登録されてしまっている。具体的には、NEC選定IBM拡張文字とIBM拡張文字につき、まるごと重複しており、また、「¬」「∵」については三重複している。
[編集] 重複文字が含まれる領域
重複文字が含まれる領域は以下の表のとおりである。
文字種名 | コードポイント | 区番号 |
JIS X 0208の非漢字(1983年追加文字)の一部 | ― | 2区 |
NEC特殊文字 | 0x8740~0x879C | 13区 |
NEC選定IBM拡張文字 | 0xED40~0xEEFC | 89~92区 |
IBM拡張文字 | 0xFA40~0xFC4B | 115~119区 |
[編集] 文字コード変換時の重複文字の影響
文字コード変換を行う際には、この重複文字というのは厄介になる。別の文字コードから、「Windows-31J」に変換する場合に、重複するどちらの文字へと変換するべきかが問題になるのである。
それに関して、WindowsのAPIの仕様における優先順位は、以下のようになっている。
- JIS X 0208-1990の登録文字である場合は、これに統一
- 例 : 「√(ルート)」、「∵(なぜならば)」、「¬(否定)」
- NEC特殊文字とIBM拡張文字が重複する場合はNEC特殊文字に統一
- 例 : 「№(ナンバー)」 、「㈱(かっこかぶ)」、「Ⅲ(大文字ローマ数字の3)」
- NEC選定IBM拡張文字とIBM拡張文字が重複する場合はIBM拡張文字に統一
- 例 : 「﨑(たちざき)」 、「髙(はしごだか)」 、「ⅲ(小文字ローマ数字の3)」
この基準に従って、MS-IMEによって、「㈱(かっこかぶ)」を入力しようとした場合には、IBM拡張文字のコードである“0xFA58”ではなく、NEC特殊文字としてのコードである“0x878A”が引き当てられる。
[編集] インターネット上でのWindows-31Jの利用について
IANAのcharset登録簿には「Windows-31J」が登録されているが、「限定された、または特殊な使用のためのもの」とされており、インターネット上で用いることが推奨されるまでには至っていない。ただし、文字符号化方式としてShift_JISを用いてデータを交換し合う二者間において、明示的に使用が合意されている場合は、Windows-31Jを使っても問題が無い。
ところで、Unicode範囲を完全に表現可能なUTF-8等の文字符号化方式を用いてデータの交換をする場合は、話が若干ややこしくなる。IBM拡張文字等のWindows-31J独自追加の文字は、他のJIS X 0208非登録のCJK統合漢字に比べて、異機種(OS/アプリケーション)間でのデータ交換を正常に行える[9]確率が高いからである[10]。とは言え、UTF-8等のようなUnicodeの登録文字を全て利用できる文字符号化方式を利用している場合であっても、あえてJIS X 0208登録文字だけを用いてデータ交換を行った方が、問題が起こりにくいことは言うまでも無い。
[編集] NEC特殊文字・IBM拡張文字
NEC特殊文字やIBM拡張文字はもともとベンダの独断で作られた文字セットであるが、現在では各種の公的な規格でも全部または一部が採用されている。特にUnicodeについては、マイクロソフトがUnicodeコンソーシアムのメンバであるおかげで、NEC特殊文字・IBM拡張文字の文字の全てが、基本多言語面に収録されている。
[編集] NEC特殊文字
- Windows-31J
- 全83文字を、13区に収録。
- 「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の9文字は2区にも重複して収録。
- 「∵」の1文字はさらに115区にも重複して収録。
- Unicode
- 83文字全てを基本多言語(BMP)面に収録。
- JIS X 0212-1990
- 「№」の1文字を2区81点に収録。
- JIS X 0213:2004
- 「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の9文字は2区に収録。
- 「∑ (N-ARY SUMMATION)」の1文字は収録されていない。
- 上記以外の73文字はWindows-31Jと同一区点(13区)上に収録。
[編集] IBM拡張文字
- Windows-31J
- 全388文字を、2ないし3重複して収録。
- Unicode
- 388文字全てを基本多言語 (BMP) 面に収録。
- JIS X 0212-1990
- 全388(漢字部分360)文字中280 (279) 文字を収録。
- JIS X 0213:2004
- 全388(漢字部分360)文字中304 (276) 文字を収録。
- 富士通 JEF
- 「﨩」以外の387文字を収録。
- NEC JIPS
- 388文字全てを収録。
- 日立製作所 KEIS (90)
- 「'」「"」以外の386文字を収録。
- IBM DBCS-Host
- 388文字全てを収録。
- 三菱電機 JSII
- 388文字全てを収録。
- 日本ユニシス Lets-J
- 388文字中328文字を収録。
[編集] JIS X 0208以外の公的規格にて登録のあるNEC特殊文字一覧
[編集] JIS X 0212-1990に登録されているNEC特殊文字(全部)
№
[編集] JIS X 0213:2004に登録されているNEC特殊文字(全部)
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ㍉ ㌔ ㌢ ㍍ ㌘ ㌧ ㌃ ㌶ ㍑ ㍗ ㌍ ㌦ ㌣ ㌫ ㍊ ㌻ ㎜ ㎝ ㎞ ㎎ ㎏ ㏄ ㎡ ㍻ 〝 〟 № ㏍ ℡ ㊤ ㊥ ㊦ ㊧ ㊨ ㈱ ㈲ ㈹ ㍾ ㍽ ㍼ ≒ ≡ ∫ ∮ √ ⊥ ∠ ∟ ⊿ ∵ ∩ ∪
[編集] IBM拡張文字を名前に持つ有名人
- 髙村薫(日本の小説家)[11]
- 内田百閒(日本の小説家)[12]
- 手塚治虫(日本の漫画家)
- 德川家康(日本の歴史的人物)
- 宮﨑あおい(日本の女優)[13]
- 草彅剛(日本のタレント)
- 里見弴(日本の小説家)
- 李承燁(韓国のプロ野球選手)
- 鄭珉台(韓国のプロ野球選手)
- 鄧小平(中国の政治家)
文字コード | 髙 | 閒 | 塚 | 德 | 﨑 | 彅 | 弴 | 燁 | 珉 | 鄧 |
---|---|---|---|---|---|---|---|---|---|---|
JIS X 0208-1990 | 高 | 間 | 塚 | 徳 | 崎 | × | × | × | × | × |
JIS X 0212-1990 | - | - | - | - | - | ○ | ○ | ○ | ○ | ○ |
JIS X 0213:2004 | 高 | 間 | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ |
Unicode 2.0~ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ |
表中の漢字表示箇所については、その文字に包摂されている(同じ文字とみなされる)ことを表す。
[編集] JIS X 0208以外の公的規格にて登録のあるIBM拡張文字一覧
[編集] 人名用漢字(2004年改正)に登録されているIBM拡張文字(全部)
寬 薰 瀨 增 德 賴 朗 橫 黑 緖 諸 祥 神 都 福 郞
[編集] JIS X 0212-1990に登録されているIBM拡張文字(全部)
№ 丨 仡 伀 伃 伹 佖 侊 侒 侔 侚 俉 俍 俿 倞 倢 偀 偂 偆 偰 傔 僘 兊 兤 冝 冾 刕 劜 劦 劯 勀 勛 匀 卲 厓 厲 叝 咜 咩 哿 喆 坥 垬 埇 埈 墲 夋 奓 奛 奝 奣 妤 妺 孖 寀 寘 尞 岦 岺 崧 嵂 嵭 嶸 嶹 巐 弡 弴 彅 彧 忞 恝 悊 惕 惞 惲 愑 愰 愷 憘 戓 抦 揵 摠 撝 擎 昀 昉 昕 昞 昤 昮 昱 晗 晙 曻 晳 暙 暠 暲 暿 曺 朎 杦 枻 柀 桒 桄 棈 棏 楨 榘 槢 樰 橆 橳 橾 櫤 毖 氿 汜 汯 沆 泚 洄 浯 涇 涖 涬 淏 淼 渧 渹 渼 湜 溿 澈 澵 濵 瀅 瀇 炅 炫 焄 焏 煆 煇 煜 燁 燾 犱 犾 猤 獷 玽 珉 珒 珖 珣 珵 琇 琦 琩 琪 琮 瑢 璉 璟 甯 畯 皛 皜 皦 睆 砡 硎 硤 硺 禔 禛 竑 竫 箞 絈 絜 綷 繒 纊 罇 羡 茁 荿 菇 菶 葈 蒴 蓜 蕓 蕙 蕫 裵 褜 訒 訷 詹 誧 誾 諟 諶 譓 賰 贒 軏 遧 鄧 釗 釚 釞 釤 釥 釭 釮 鈆 鈊 鈐 鈹 鈺 鈼 鉀 鉎 鉑 鉙 鉧 鉷 鉸 銈 銧 鋐 鋓 鋕 鋗 鋙 鋠 鋧 鋹 鋻 鋿 錂 錝 錞 錡 錥 鍈 鍗 鍰 鎤 鏆 鏞 鏸 鐱 鑅 鑈 隝 隯 霳 靃 靏 靕 顗 顥 餧 驎 髜 魵 鮏 鮱 鮻 鰀 鵫 鵰 鸙
[編集] JIS X 0213:2004に登録されているIBM拡張文字(全部)
ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ¬ ¦ ' " ㈱ № ℡ ∵ 丨 仡 伃 佖 侊 侔 俉 偀 傔 兊 冝 刕 勛 匀 匇 厓 厲 咜 咩 哿 喆 﨏 埇 埈 塚 增 奝 妤 孖 寘 寬 尞 岺 崧 﨑 嵓 嵭 嶸 弴 彅 彧 德 忞 惕 愰 愷 揵 摠 擎 昀 昉 昕 昞 昤 昱 曻 晙 晥 晳 暠 暲 曺 朗 杦 枻 柀 栁 桒 棈 楨 﨔 槢 橫 橳 櫤 毖 汜 沆 洄 涇 涬 淼 湜 澈 濵 瀅 瀨 炅 炫 焏 煆 煇 煜 凞 燁 燾 犾 猪 珉 珖 珣 琇 琦 琪 琮 瑢 璉 璟 甁 甯 畯 皛 皞 皦 睆 硎 神 祥 福 竫 箞 絈 絜 綠 緖 繒 纊 罇 茁 荢 菇 葈 蒴 蕙 﨟 薰 裵 褜 訒 訷 詹 誧 諟 諶 諸 賴 贒 郞 都 鄕 鄧 釗 釤 釥 釭 鈐 鈹 鈺 鈼 鉀 鉸 銈 鋓 鋠 鋿 錡 錥 鍈 鍰 鏆 鏞 隆 隝 霳 霻 靍 靏 顗 顥 馞 驎 魲 魵 鮏 鰀 鵰 黑 伀 侒 侚 倞 倢 偂 偆 偰 劦 劯 匤 咊 垬 夋 奛 寀 岦 嵂 嶹 悊 惲 憘 抦 撝 晗 暙 暿 桄 﨓 棏 榘 樰 橆 橾 氿 泚 淏 渧 渼 溿 澵 瀇 炻 焄 犱 獷 皜 砡 硤 礰 禔 禛 竑 竧 綷 荿 蓜 蕓 蘒 﨡 誾 譿 賰 﨤 釚 釮 鈊 鉎 鉑 鉙 鉧 銧 鋐 鋗 鋙 鋧 鋹 鋻 錂 錝 錞 鍗 鑅 隯 靕 髜 鮱 鵫 鸙
[編集] CP932の利用者定義領域
CP932においては、95~114区までの1880文字の領域が「利用者定義領域(外字領域)」となっている。
Unicodeとの変換について、Windows APIの仕様では、BMP面の私用領域6400文字分の領域の先頭から1880文字目までと、95~114区の当領域を1対1の写像変換するようになっている。
[編集] Windows-31J以外のベンダ拡張シフトJIS
[編集] アップルコンピュータのシフトJIS
アップルコンピュータは自社のコンピュータのOSとしてMS-DOSやCP/M-86を採用しなかったが、Macintoshが用いる文字コードとしてシフトJISを利用した。
そのMacintosh(漢字Talk7.1以降)搭載のシフトJISの9~15区にはアップルコンピュータ独自の特殊文字が登録されている。このエリアには13区が含まれるため、Windows-31Jの「NEC特殊文字」領域と被っている。文字の例を挙げれば、NEC特殊文字の「①」はApple特殊文字の「㈰」が同じコードポイントに登録されていることである。もう一点、117区にも「縦書き用文字」が登録されている点もWindows-31Jと違う。当然ながら、IBM拡張文字の領域は存在しない。[14]この文字コードについては、MacJapaneseを参照のこと。
漢字Talk6以前のMacintoshでは、NEC互換のシフトJISが使われており、13区のNEC特殊文字もMacintosh上で利用できた。[15]
[編集] 富士通のシフトJIS
富士通のMS-DOS搭載コンピュータのOEMコードページ932として使われる文字コードに、「R90」というものがある。これはFMRシリーズで利用された。この符号化文字集合の特徴は、87~93区に「OASYS拡張文字」の領域を持つことである。ベースとなる文字集合はJIS X 0208-1990であるが、第一水準漢字の中で「78⇔83非入替文字」でない漢字(203文字)の字形をJIS C 6226-1978に合わせてある点に特色がある。なお、富士通のマニュアル等では、「R90」のことを「SJIS (R90)」と呼び、「Windows-31J」のことを「SJIS (MS)」と呼んで区別している。
[編集] iモードのシフトJIS
NTTドコモのiモードは標準日本語コードにシフトJISを採用している。この文字集合においてはJIS X 0208-1990を以下のように拡張している。
[編集] 京ぽんのシフトJIS
京セラのPHS AH-K3001V(通称 : 京ぽん)の搭載するシフトJISは、9~13区にPC-9800シリーズ用の特殊文字が搭載されている。
[編集] 「0x5c」と「0x7e」の文字について
「0x5c」と「0x7e」については、ASCIIともJIS X 0201とも違う文字が登録されている。日本人の多くが「ASCII文字」と呼んでいるものは実は、「Windows-31J文字」であるということも言われている。
0x5c | 0x7e | |
ASCII | \(バックスラッシュ) | ~(チルダ) |
JIS X 0201 | ¥(円記号) | ¯(オーバーライン) |
Windows-31J | ¥(円記号) | ~(チルダ) |
[編集] マイクロソフトが規定するCP932に関連があるコード
Eメールで用いるために7ビットコードでWindows-31Jの文字集合(=マイクロソフト標準キャラクタセット[18])を表現した「CP50220」や、GR領域にマイクロソフト標準キャラクタセットを表現した「CP51932」というものがある。これらは、マイクロソフトのInternet Explorerや、秀丸エディタなどのWindowsアプリケーションで利用されている。
IE6.0における表記 | Microsoftのコードページ | 文字集合と符号化方式 |
日本語(シフトJIS) | CP932 | マイクロソフト標準キャラクタセットをシフト符号化表現 |
日本語 (JIS) | CP50220 | マイクロソフト標準キャラクタセットをRFC1468符号化表現 |
日本語 (EUC) | CP51932 | マイクロソフト標準キャラクタセットをGR表現[19] |
Unicode | CP1200 | UnicodeをUTF-16 (Little Endian) で符号化 |
Unicode(Big-Endian) | CP1201 | UnicodeをUTF-16 (Big Endian) で符号化 |
Unicode(UTF-8) | CP65001 | UnicodeをUTF-8で符号化 |
[編集] 脚注
- ^ メインフレームにて搭載されている符号化文字集合。単に「IBM漢字」と呼ばれることも多い。IBMコードページ300という管理番号が割り振られている。日本語カナ版EBCDIC(IBMコードページ290)と組み合わせてIBMコードページ930として用いられたり、日本語英小文字版EBCDIC(IBMコードページ1027)と組み合わせてIBMコードページ939として用いられることが多い。
- ^ マイクロソフトおよびIBMは、それぞれ独自に「コードページ###(#は数字)」という形で、符号化文字集合を管理している。また、同じ番号のコードページ同士が同じ文字集合を指しているわけではない。
- ^ JIPSは、NECが1979年に開発したメインフレーム用の日本語処理システムの名前だが、ここではそのシステムで使われる符号化文字集合を以ってJIPSを呼ぶ。JIPSでは「JIS C 6226-1978」がGLに呼び出され、その9区~13区に特殊文字が実装され、また、GR領域に「G1集合」と呼ばれる拡張漢字領域が実装されている。
- ^ DBCS-PCと違い、115~119区ではなく、GL表現も可能なように追加文字全てを94区内に全て配置した。
- ^ NECとしては、JIPSのG1集合を収める方が建前として良かったのかもしれない。しかしながら、CP/M-86やMS-DOSなどのオペレーティングシステム (OS) 搭載機においては、符号化方式としてシフトJISが前提であった。G1集合部分を収めるには配置制約を大きく受けることになるため断念したものと考えられる。また、漢字ROM容量の都合上、G1集合部分を収めても利用することは不可能であったとも考えられる。
- ^ IANA登録名の「Windows-31J」とは、読んで字のごとく、「Windows3.1 Japanese」を意味している。
- ^ IBMはマイクロソフトによる「CP932」の統合を受けて、「Windows-31J」と各文字のコードポイントまで同一にした「CP943」を策定し、同社のPC/AT互換機用OSであるOS/2に搭載している。
- ^ JDK 1.4.1以降では「MS932」の代わりに「Windows-31J」というキーワードでも「Windows-31J」文字セットを指定できるようになっている。
- ^ 文字化けを起こしたりせずにデータのやり取りが可能であるということ。
- ^ これについては、デスクトップOSとしてのWindowsの普及率が非常に高いことも理由の一つである。また、このあたりの話は、機種依存文字の項で解説されている。
- ^ 「髙」は「高」の俗字であり、康熙字典に根拠はない
- ^ IBM拡張文字として登録があるのは「閒」の方。ちなみに「内」の中の部分は康熙字典体に準拠した「入」である。
- ^ 「﨑」は「崎」の俗字であり、康熙字典に根拠はない
- ^ マイクロソフトはこのコードに対して、コードページ10001という管理番号を付与している。
- ^ Mac OS X標準WebブラウザのSafariでは、Mac用シフトJISで表示するのか、Windows-31Jで表示するのかを選択できる。
- ^ NEC選定IBM拡張文字は搭載されていない。
- ^ この112~114区というのは、CP932における95~114区にある1880文字のユーザ外字登録領域の最後尾の位置に当たる。
- ^ 本節では、マイクロソフト標準キャラクタセットがJIS X 0208のコードポイントを拡張する形で表現されているものと仮定した場合の説明を行っているという前提を理解されたい。
- ^ マイクロソフトはCP51932の他にCP20932というEUC-JPライクなコードページを有している。CP20932は上位バイト0xa0~0xfe、下位バイト0x20~0x7eという2バイトの組み合わせを利用することで補助漢字を表現する。eucJP-openとの対応においては、CP51932よりもCP20932の方が、レパートリの一致度が高い。