UTF-EBCDIC
A Wikipédiából, a szabad lexikonból.
Unicode |
---|
Kódolások
|
UCS |
Elhelyezkedés |
Kétirányú szöveg |
BOM |
Han egységesítés |
Unicode és HTML |
Unicode és e-mail |
Unicode fontok |
UTF-EBCDIC egy karakter kódolás a Unicode karakterkészlet megjelenítésére. A neve alapján megállapítható, hogy EBCDIC-hez hasonló, azaz a mainframeken futó régebbi EBCDIC alapú alkalamzások különösebb nehézségek nélkül valószínűleg fel tudják dolgozni a karaktereket. A létező EBCDIC-alapú rendszerek szempontjából előnye, hogy megegyezik az UTF-8-al, ami előny az ASCII-alapú rendszerekkel szemben. Az UTF-EBCDIC részleteit a 16. "Unicode Technical Report" tartalmazza. Egy Unicode kódpontok sorozatának UTF-EBCDIC kódolása egy UTF-8 szerű (a specifikáció UTF-8-Mod néven ismert) kódolással kezdődik. A különbség a két kódolás között az, hogy a módosítás megengedi az U+0080 és az U+009F közötti kódpontok (a C1 vezérlő kódok) egy önálló byte-ban való megjelenítését. Az UTF-8 5 bitet használ a kódoláshoz a EBCDIC 6 bitje helyett, ezért általában az UTF-EBCDIC azonos bemenet esetében általában hosszabb kódokat szolgáltat, mint az UTF-8.
A fentiekben említett talakítás az adatokat egy ASCII-szerű formátumban hagyja, ezért egy speciális táblázat segítségével még egy byte-byte átalakítást is végre kell hajtani, hogy a kód megfeleljen a normál EBCDIC elrendezésnek.
Általában, ez a kódolási forma viszonylag ritka, még a különben EBCDIC alapú nagygépek között is, mint az IBM EBCDIC alapú operációs rndszerei, a z/OS például UTF-16-ot használ a teljes Unicode támogatáshoz. Például a DB2 UDB, a COBOL, a PL/I, a Java és az IBM XML toolkit is a UTF-16-ot támogatja az IBM nagygépeken.
[szerkesztés] Angol nyelvű link
- http://www.unicode.org/reports/tr16/ Unicode Technical Report #16: the definition of UTF-EBCDIC