Extended UNIX Coding

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensätze kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme, findet diese Kodierung heute immer weniger Verwendung da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde.

[Bearbeiten] Gemeinsamkeiten

Alle EUC Kodierungen haben einige Gemeinsamkeiten:

Sie unterstützen bis zu 4 verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden.
Code Set 0 wird immer durch 1 Byte direkt kodiert.
Es gibt 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f).
Es wird der ASCII Bereich von 0xa0 - 0xff für Multi-Byte-Zeichen verwendet.

Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:

Code Set	Variante 1	Variante 2	Variante 3
Code Set 0	1 Byte: 0x21-0x7e
Code Set 1	1 Byte: 0xa0-0xff	2 Bytes: 0xa0-0xff, 0xa0-0xff	3 Bytes: 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
Code Set 2	2 Bytes: 0x8e, 0xa0-0xff	3 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff	4 Bytes: 0x8e, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff
Code Set 3	2 Bytes: 0x8f, 0xa0-0xff	3 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff	4 Bytes: 0x8f, 0xa0-0xff, 0xa0-0xff, 0xa0-0xff

[Bearbeiten] EUC-JP

Die in Japan verwendete Variante.

Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch 1 Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.

Code Set 1 ist JIS X 0208:1997 und wird durch 2 Zeichen kodiert (Variante 2 in der obigen Tabelle)

Code Set 2 sind halbbreite Katakana die auch durch 2 Bytes kodiert werden (Variante 1 in der Tabelle). Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Prefix).

In Code Set 3 wird JIS X 0212:1990 in der 3 Byte Variante kodiert.

[Bearbeiten] EUC-KR

EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).

[Bearbeiten] EUC-CN

EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.

[Bearbeiten] EUC-TW

Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.

Von „http://de.wikipedia.org../../../e/x/t/Extended_UNIX_Coding_583d.html“

Kategorie: Zeichenkodierung