大規模文字セット

出典: フリー百科事典『ウィキペディア（Wikipedia）』

大規模文字セット（だいきぼもじせっと）とは、文字コードセットのうち、文字コード規格として一般に通用しているものより多くの文字を含むものをいう。

初期の漢字コードの規格であったJIS X 0208には約6千の文字が含まれていたが、過去の文学作品や現代の日本でも使われている地名、人名等の固有名詞を表すのに十分ではなく、使いたい文字が含まれていないことを不満に感じる人達が少なからずおり、その中から「必要な文字をすべて入れた文字コードセットを自ら作ればよい」と考えた人達の手によって作り上げられていった文字コードセットである。

[編集] 大規模文字セットに必要な文字数

どのくらいの文字種の数があれば大規模文字コードセットと呼べるのかについては明確な基準があるわけではなく、その時々の普及している文字コードセットの文字数やどのくらいの文字数が必要であると考えられているのかといったことによって決まる。

実際に流通している漢字コードの規格が約6千の文字を収容しているJIS X 0208しかなかった時代には、1万を越える文字数があれば大規模と呼ばれた。また、諸橋大漢和辞典の収容文字数が約5万4千であることから、16ビットの限界である65536個のコードがあれば、なんとか必要な文字を収容できるという考え方もあった。

その後Unicodeおよびそれを元にしたISO/IEC 10646（JIS X 0221）、JIS X 0213（新拡張JISコード）等の含まれる文字数の多い規格がいくつも制定された。また漢字などについての研究が進んだ結果必要な文字を網羅した場合には10万以上あることが明らかになっている。

そのため、現在では通常は10万字以上、最低でも数万字程度の文字種を持つもののみが大規模文字セットと呼ばれている。