Символы, представленные в Юникоде
Материал из Википедии — свободной энциклопедии
В Юникоде зарезервировано 1 114 112 (= 220 + 216) позиций символов, из которых сейчас используется около 90000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 (Latin-1).
Кодовое пространство разделено на 17 «плоскостей» по 65536 (= 216) символов:
- Plane 0 (0000–FFFF): Basic Multilingual Plane (BMP)
- Plane 1 (10000–1FFFF): Supplementary Multilingual Plane (SMP)
- Plane 2 (20000–2FFFF): Supplementary Ideographic Plane (SIP)
- Planes 3 to 13 (30000–DFFFF) не используется
- Plane 14 (E0000–EFFFF): Supplementary Special-purpose Plane (SSP)
- Plane 15 (F0000–FFFFF) зарезервировано для Private Use Area (PUA)
- Plane 16 (100000–10FFFF), зарезервировано для Private Use Area (PUA)
[править] Базовая многоязыковая плоскость
![]() |
Базовая плоскость UNICODE |
Плоскость 0 (Основная многоязыковая плоскость, англ. Basic Multilingual Plane, BMP) содержит символы практически для всех современных письменностей и большое число специальных символов. Большая часть таблицы занята китайско-японско-корейскими иероглифами.
В Unicode 4.1 в этой плоскости представлены следующие символы:
- Базовый латинский алфавит (0000—007F)
- Дополнительные символы Latin-1 (0080—00FF)
- Расширенный латинский алфавит-A (0100—017F)
- Расширенный латинский алфавит-B (0180—024F)
- Международный фонетический алфавит (IPA) Extensions (0250—02AF)
- Некомбинирующие буквы-модификаторы (02B0—02FF)
- диакритические символы (0300—036F)
- Греческий и коптский алфавиты (0370—03FF)
- Кириллица (0400—04FF), см. также Кириллица в Юникоде
- Дополнительные символы кириллицы (0500—052F)
- Армянский алфавит (0530—058F)
- Еврейский алфавит (0590—05FF)
- Арабский алфавит (0600—06FF)
- Сирийский алфавит (0700—074F)
- Дополнительные символы арабского алфавита (0750—077F)
- таана (0780—07BF)
- Индийские письменности:
- Деванагари (0900—097F)
- Бенгали (0980—09FF)
- Гурмухи (0A00—0A7F)
- Гуджарати (0A80—0AFF)
- Ория (0B00—0B7F)
- Тамильский (0B80—0BFF)
- Телугу (0C00—0C7F)
- Каннада (0C80—0CFF)
- Малаяли (0D00—0D7F)
- Сингальский (0D80—0DFF)
- Тайский алфавит (0E00—0E7F)
- Лаосская письменность (0E80—0EFF)
- Тибетская письменность (0F00—0FFF)
- Бирманский алфавит (1000—109F)
- Грузинский алфавит (10A0—10FF)
- Отдельные буквы (Jamo) хангыль (1100—11FF)
- Амхарский язык (1200—137F)
- Ethiopic Supplement (1380—139F)
- Язык чероки (13A0—13FF)
- Unified Canadian Aboriginal Syllabics (1400—167F)
- Ogham (1680—169F)
- Рунный алфавит (16A0—16FF)
- Филиппинские письменности:
- Tagalog (1700—171F)
- Hanunóo (1720—173F)
- Buhid (1740—175F)
- Tagbanwa (1760—177F)
- Кхмерский алфавит (1780—17FF)
- Монгольский алфавит (1800—18AF)
- Limbu (1900—194F)
- Tai Le (1950—197F)
- New Tai Lue (1980—19DF)
- Khmer Symbols (19E0—19FF)
- Buginese (1A00—1A1F)
- Фонетические расширения (1D00—1D7F)
- Дополнительные фонетичестие расширения (1D80—1DBF)
- Дополнительные диакритические знаки (1DC0—1DFF)
- Latin Extended Additional (1E00—1EFF)
- Расширенный греческий алфавит (1F00—1FFF)
- Символы:
- Пунктуация (2000—206F)
- Надстрочные и подстрочные знаки (2070—209F)
- Символы валют (20A0—20CF)
- Combining Diacritical Marks for Symbols (20D0—20FF)
- Letterlike Symbols (2100—214F)
- Number Forms (2150—218F)
- Стрелки (2190—21FF)
- Математические операторы (2200—22FF)
- Прочие технические символы (2300—23FF)
- Control Pictures (2400—243F)
- Optical Character Recognition (2440—245F)
- Enclosed Alphanumerics (2460—24FF)
- Символы для рисования рамок (2500—257F)
- Block Elements (2580—259F)
- Геометрические фигуры (25A0—25FF)
- Прочие символы (2600—26FF)
- Dingbats (2700—27BF)
- Miscellaneous Mathematical Symbols-A (27C0—27EF)
- Supplemental Arrows-A (27F0—27FF)
- Азбука Брайля (2800—28FF)
- Supplemental Arrows-B (2900—297F)
- Miscellaneous Mathematical Symbols-B (2980—29FF)
- Supplemental Mathematical Operators (2A00—2AFF)
- Miscellaneous Symbols and Arrows (2B00—2BFF)
- Глаголица (2C00—2C5F)
- Коптский алфавит (2C80—2CFF)
- Georgian Supplement (2D00—2D2F)
- Tifinagh (2D30—2D7F)
- Ethiopic Extended (2D80—2DDF)
- Supplemental Punctuation (2E00—2E7F)
- CJK Radicals Supplement (2E80—2EFF)
- Kangxi Radicals (2F00—2FDF)
- Ideographic Description Characters (2FF0—2FFF)
- CJK Symbols and Punctuation (3000—303F)
- Хирагана (3040—309F)
- Катакана (30A0—30FF)
- Чжуинь (Бопомофо) (3100—312F)
- Хангыль Compatibility Jamo (3130—318F)
- Kanbun (3190—319F)
- Расширение Бопомофо (31A0—31BF)
- CJK Strokes (31C0—31EF)
- Katakana Phonetic Extensions (31F0—31FF)
- Enclosed CJK Letters and Months (3200—32FF)
- CJK Compatibility (3300—33FF)
- CJK Unified Ideographs Extension A (3400—4DBF)
- Yijing Hexagram Symbols (4DC0—4DFF)
- CJK Unified Ideographs (4E00—9FFF)
- Yi Syllables (A000—A48F)
- Yi Radicals (A490—A4CF)
- Modifier Tone Letters (A700—A71F)
- Syloti Nagri (A800—A82F)
- Слоги хангыль (AC00—D7AF)
- Верхняя часть суррогатных пар (D800—DB7F)
- Верхняя часть суррогатных пар для частного использования (DB80—DBFF)
- Нижняя часть суррогатных пар (DC00—DFFF)
- Область для частного использования (E000—F8FF)
- CJK Compatibility Ideographs (F900—FAFF)
- Alphabetic Presentation Forms (FB00—FB4F)
- Arabic Presentation Forms-A (FB50—FDFF)
- Variation Selectors (FE00—FE0F)
- Vertical Forms (FE10—FE1F)
- Combining Half Marks (FE20—FE2F)
- CJK Compatibility Forms (FE30—FE4F)
- Small Form Variants (FE50—FE6F)
- Arabic Presentation Forms-B (FE70—FEFF)
- Halfwidth and Fullwidth Forms (FF00—FFEF)
- Специальные символы (FFF0—FFFF)
Некоторые письменности будут добавлены в следующей версии Unicode. Эти письменности и предложенные диапазоны перечислены далее:
- N'Ko (Mandekan) (07C0—07FF)
- Balinese (1B00—1B7F)
- Lepcha (Rong) (1C00—1C4F)
- Latin Extended-C (2C60—2C7F)
- Santali (Ol Cemet' / Ol Chiki) (2DE0—2DFF)
- Vai (A500—A61F)
- Latin Extended-D (A720—A7FF)
- Phags-pa (A840—A87F)
- Saurashtra (AB00—AB5F)
Некоторые другие предложенные расширения:
- Avestan & Pahlavi (0800—085F)
- Cham (18B0—18FF)
- Batak (1A20—1A5F)
- Lanna (Old Tai Lue) (1A80—1AEF)
- Meithei/Manipuri (1C80—1CDF)
- Varang Kshiti (AA00—AA3F)
- Sorang Sompeng (AA40—AA6F)
[править] Дополнительная многоязыковая плоскость
Плоскость 1 (дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена, в первую очередь, для исторических письменностей, но также включает музыкальные и математические символы.
[править] Частная область
Некоторые регионы Unicode выделены для частного использования и экспериментов. Частная область включает:
- Регион в Базовой плоскости U+E000…U+F8FF
- Расширенные плоскости 15 (U+F0000…U+FFFFF) и 16 (U+100000…U+10FFFF)