Unicode
Allikas: Vikipeedia
Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks. See hõlmab suuremaid kirjasüsteeme, mis on tänapäeval kasutuses, kuid samuti väljasurnud kirju.
Unicode'is antakse igale märgile oma "koodipunkt" (ingl code point), mis on unikaalne kõikide märkide hulgas. Standardis märgitakse seda stiilis "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis.
Koodipunkt on ainult abstraktne number, mille kodeerimiseks arvutis on mitu standartset viisi. Üldises kasutamises on levinuim UTF-8, mille ühikuks on üks bait; mida suurem on tähe kood, seda rohkem baite kulub. UTF-8 kasutab esimese 255 tähe kodeerimiseks ainult ühte baiti, seega on see tagasiühilduv ASCII-ga.
Standardiga paralleelne on ISO 10646 standard, mida hoitakse vastavuses Unicode'iga, kuid ISO standard on ainult kirjeldav ning ei paku juhiseid ega soovitusi.