Extended UNIX Coding
aus Wikipedia, der freien Enzyklopädie
Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensätze kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme, findet diese Kodierung heute immer weniger Verwendung da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.
Inhaltsverzeichnis |
[Bearbeiten] Gemeinsamkeiten
Alle EUC Kodierungen haben einige Gemeinsamkeiten:
- Sie unterstützen bis zu 4 verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.
- Code Set 0 wird immer durch 1 Byte direkt kodiert.
- Es gibt 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).
- Es wird der ASCII Bereich von 0xa0 - 0xff für Multi-Byte-Zeichen verwendet.
Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:
-
Code Set Variante 1 Variante 2 Variante 3 Code Set 0 1 Byte: 0x21-0x7e Code Set 1 1 Byte: 0xa0-0xff 2 Bytes: 0xa0-0xff, 0xa0-0xff 3 Bytes: 0xa0-0xff, 0xa0-0xff, 0xa0-0xff Code Set 2 2 Bytes: 0x8e, 0xa0-0xff 3 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff 4 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff Code Set 3 2 Bytes: 0x8f, 0xa0-0xff 3 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff 4 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
[Bearbeiten] EUC-JP
Die in Japan verwendete Variante.
Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch 1 Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.
Code Set 1 ist JIS X 0208:1997 und wird durch 2 Zeichen kodiert (Variante 2 in der obigen Tabelle)
Code Set 2 sind halbbreite Katakana die auch durch 2 Bytes kodiert werden (Variante 1 in der Tabelle). Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Prefix).
In Code Set 3 wird JIS X 0212:1990 in der 3 Byte Variante kodiert.
[Bearbeiten] EUC-KR
EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).
[Bearbeiten] EUC-CN
EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.
[Bearbeiten] EUC-TW
Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.