Обсуждение:Кириллица в Юникоде
Материал из Википедии — свободной энциклопедии
Содержание |
[править] Вопросы:
1) Не следует ли пересортировать таблицу так, чтобы соответствующие большие и маленькие буквы всегда стояли рядом (типа АаБбВвГгДд)? Но тогда буквы не будут стоять в порядке своих юникодовских номеров.
2) Нужны ли и английские (официальные юникодовские), и русские названия букв, или же сделать только русские? — Monedula 15:07, 28 июля 2005 (UTC)
3) Наверное, стоит добавить специальный юникодный фонт для корректного отображения расширенной кириллицы?
- Ответы CodeMonk 21:49, 28 июля 2005 (UTC) :
1) Нет, но имхо следует пересортировать так, чтобы «Основной русский алфавит» оказался вначале, а «Расширения кириллицы» потом. Порядок Юникодовских номеров здесь не важен.
2) Имхо сделать только русские.
3) Стоит. Только бы знать где его взять…
Monedula, Вы проделали огромную работу с этой таблицей, примите мой респект.
-
- В поставке WinXP, например, есть фонт "arial unicode ms", который поддерживает очень много юникодных диапазонов, в т.ч. старославянскую кириллицу (правда, символы коми не поддерживает). Можно изобразить что-нибудь типа font-family: "arial unicode ms", может быть даже сделать шаблон. А для коми и прочей экзотики нужно устанавливать на компьютер специальные шрифты, например code2000.
-
-
-
- Не забывайте про шаблоны Template:Unicode и Template:Unicode fonts (можно обновить их до аналогов в англ. вике). --ajvol 06:48, 29 июля 2005 (UTC)
-
-
Чтобы видеть все символы, лучше всего использовать браузер Mozilla Firefox. Описание шрифтов можно добавить в шаблон Template:Bigunicode, который используется во второй колонке таблицы. — Monedula 06:20, 29 июля 2005 (UTC)
"Ё" ведь тоже входит в основной русский алфавит. Наверное, стоит перенести на "законное" место?
- Я думаю, что надо сделать так: маленькие буквы отсортировать по их юникодовским номерам, а большие поставить непосредственно перед соответствующими маленькими. А «ё» пусть будет отдельно от других русских букв, это не очень страшно. — Monedula 07:26, 29 июля 2005 (UTC)
- зачем привязыватся к номерам, просто по алфавиту--wassily 08:03, 29 июля 2005 (UTC)
-
-
- Алфавитов-то много разных. Или мы будем принимать во внимание только русский? — Monedula 08:26, 29 июля 2005 (UTC)
-
код | символ | название | каноническое разложение |
комментарий |
---|---|---|---|---|
[править] Основной русский алфавит |
||||
0410 | А | прописная (а) | ||
0411 | Б | прописная (бэ) |
-
- такие названия пойдут?--wassily 08:03, 29 июля 2005 (UTC)
-
-
- Вероятно, лучше делать только одно общее название для большой и маленькой буквы (т. е. объединять две ячейки по вертикали.). Если большая всегда будет стоять непосредственно перед маленькой, то никакой неясности не возникнет. — Monedula 08:26, 29 июля 2005 (UTC)
-
код | символ | прописные/строчные | название | каноническое разложение |
---|---|---|---|---|
[править] Основной русский алфавит |
||||
0410 | А | ПРОПИСНАЯ | А | |
0430 | а | СТРОЧНАЯ | ||
0411 | Б | ПРОПИСНАЯ | Бэ | |
0431 | б | СТРОЧНАЯ |
А так?--wassily 12:59, 3 августа 2005 (UTC)
- Не вижу никакого смысла в том, чтобы писать, что «"Б" — это заглавная буква "бэ"». Это и так всем известно (или про это можно написать в статье русский алфавит). А для малоизвестных букв, наоборот, никакого общепринятого русского названия и нет. Так что лучше оставить официальные юникодовские названия (на то они и официальные), а возможные русские названия (там, где они нетривиальны) приводить в колонке «комментарий». — Monedula 14:23, 3 августа 2005 (UTC)
[править] Давайте немного разберёмся
Я хотел разобраться с применением старых символов, нашёл текст на церковно-славянском языке:
Есть несколько вопросов:
1) Буквы «у» и «У» как-то странно написаны. Похоже на ижицу. Не вижу аналогов в таблице.
2) Со знаками над буквами не понятно. Часть — ударения, часть, видимо — 0483. А арки такие это 0484 что ли? А над буквой «д» в сокращении «Господу» это что? И ещё там где «…и очисти, и еже…» ?
3) Обратите внимание на предпоследнее слово «веков». Что там вместо буквы «е»? CodeMonk 00:14, 30 июля 2005 (UTC)
- (1) Странные буквы «у» — это «слитный ук», он объединён с обычным русским «у» (т. е. вид зависит от шрифта) — в отличие от «неслитного» 478, 479.
(2) Надстрочные знаки — это ударения (300, 301), придыхания (485, 486 — здесь только 486), титла (483). Под «арками» в словах «господу», «господи» стоят выносные буквы (в данном случае «с»). В plain text эти выносные (надстрочные) буквы отобразить нельзя, в HTML тоже ничего подходящего нет.
(3) В слове «веков» стоит обычное «ять». — Monedula 20:33, 31 июля 2005 (UTC)
-
- Спасибо. Про «ук» и «ять» я понял. Но теперь у меня возникло ещё больше вопросов. :-)
1) Арки как над «и» это ҄ (0484)?
2) Скажи, а нельзя ли вместо выносных букв писать просто титлу? Она же вроде тоже обозначает сокращение.
3) Это действительно там ї (0457) в слове поклоне́нїе?
4) Где ты увидел 0486?
5) Это омега под титлой Ѽ (047C) в Ѽц ҃у или омега под аркой?
Извини, что завалил вопросами, но это очень интересно. Заранее спасибо. CodeMonk 21:27, 1 августа 2005 (UTC)
- Спасибо. Про «ук» и «ять» я понял. Но теперь у меня возникло ещё больше вопросов. :-)
-
-
- 1) Над «и҆» тонкое придыхание (0486);
2) вообще говоря, нельзя — но в юникоде нет нормального набора выносных букв;
3) это графический вариант «і»;
4) см. пункт 1) — да, не очень похоже, но это именно оно :)
5) это Ѻ (047A), оно всего в паре слов употребляется;
Да, ещё один момент: е (0435) и є (0454) это действительно разные буквы, употреблялись для различения форм слова. По-моему, так :) ==Maxim Razin(talk) 05:01, 2 августа 2005 (UTC)- Большое спасибо! CodeMonk
- 1) Над «и҆» тонкое придыхание (0486);
-
Рекомендую также посмотреть ссылки к статье церковнославянский язык. — Monedula 05:32, 2 августа 2005 (UTC)
- Прочёл немного. Теперь понятно, почему грамотой в старину могли овладеть лишь избранные. :-)) CodeMonk 21:32, 2 августа 2005 (UTC)
[править] Unicode 5.0
12 декабря 2005 была опубликована бета-версия стандарта Unicode 5.0. Окончательная версия ожидается в марте 2006. В числе прочего, в стандарт добавлено несколько новых кириллических символов:
04CF - CYRILLIC SMALL LETTER PALOCHKA 04FA - CYRILLIC CAPITAL LETTER GHE WITH STROKE AND HOOK 04FB - CYRILLIC SMALL LETTER GHE WITH STROKE AND HOOK 04FC - CYRILLIC CAPITAL LETTER HA WITH HOOK 04FD - CYRILLIC SMALL LETTER HA WITH HOOK 04FE - CYRILLIC CAPITAL LETTER HA WITH STROKE 04FF - CYRILLIC SMALL LETTER HA WITH STROKE 0510 - CYRILLIC CAPITAL LETTER REVERSED ZE 0511 - CYRILLIC SMALL LETTER REVERSED ZE 0512 - CYRILLIC CAPITAL LETTER EL WITH HOOK 0513 - CYRILLIC SMALL LETTER EL WITH HOOK
— Monedula 08:21, 22 декабря 2005 (UTC)Меняется также глиф для омеги с титлом см. [http://www.unicode.org/review/pr-83.jpg ] --AlefZet 13:30, 26 мая 2006 (UTC):На сайте Юникода написано, что ожидается в октябре текущего года.--AlefZet 14:46, 26 мая 2006 (UTC)
- Эээ... а вроде палочка уже была. А в статье про неё написано, что у ней не различают заглавную и строчную формы. Зачем ещё одна? --AndyVolykhov 20:59, 26 мая 2006 (UTC)
А х.з. Исторически ведь это была арабская цифра 1 (она же и римская цифра I) на пишмашках. Естественно, до сих пор строчной еще не было нигде в практике. На мой взгляд в компьютерную эпоху можно было бы обойтись грависом.--AlefZet 22:35, 26 мая 2006 (UTC)
[править] "Расширения кириллицы" и "расширенная кириллица"
Это разные вещи или одна и та же? Если одна и та же, почему у них два разных раздела? --Участник:-) 19:01, 26 января 2007 (UTC)
[править] 2 пропущенные кириллические буквы из 1D00 "Phonetic Extensions"
В этой статье рассматриваются только два дипазоны кириллицы, но следует учесть, что она есть ещё в 1D00 "Phonetic Extensions".
1. U+1D2B "CYRILLIC LETTER SMALL CAPITAL EL" --- применяется в UPA
2. U+1D78 "MODIFIER LETTER CYRILLIC EN" --- Caucasian Linguistic. Впрочем, я эту букву пару раз видел в брошюрках (одна по церковнославянскому, другая по польскому).
P.S. Строго говоря, знак тысяч к диакритичесим знакам не относится
P.P.S. Тогда уж стоит упомянуть про знак 10000 --- U+20DD
[править] Скоро будет ещё куча символов
В стандарт предлагается включить ещё 127 кириллических символов (см. [1]). По состоянию на 2007-02-09:
Размещение | Кол-во | Название | Русское название |
---|---|---|---|
0487 | 1 | COMBINING CYRILLIC POKRYTIE | «покрытие» (диакритика) |
0514..0523 | 16 | Additional Cyrillic letters for Mordvin, Kurdish, Aleut, and Chuvash | дополнительные буквы для мордовского, курдского, алеутского и чувашского |
2DE0..2DF5 | 22 | Old Cyrillic combining marks (Cyrillic Extended-A block) | церковнославянские комбинирующие диакритики |
2DF6..2DFF | 10 | Additional Old Cyrillic combining marks | |
A640..A65F | 32 | Additional letters for early Slavic (Cyrillic Extended-B block: A640..A67F) |
дополнительные церковнославянские буквы |
A662..A66E | 13 | Additional letters for early Slavic | |
A66F..A673 | 5 | COMBINING CYRILLIC VZMET COMBINING CYRILLIC TEN MILLIONS SIGN COMBINING CYRILLIC HUNDRED MILLIONS SIGN COMBINING CYRILLIC THOUSAND MILLIONS SIGN SLAVONIC ASTERISK |
«взмет» (диакритика) ×10000000 ×100000000 ×1000000000 «славянский астериск» |
A67C..A67F | 4 | COMBINING CYRILLIC KAVYKA COMBINING CYRILLIC PAYEROK CYRILLIC KAVYKA CYRILLIC PAYEROK |
комбинирующая кавыка комбинирующий паерок кавыка паерок |
A8E0..A8FF | 24 | Additional Cyrillic letters for Abkhaz (Cyrillic Extended-C block: A8E0..A8FF) |
дополнительные буквы для абхазского языка |
— Monedula 16:52, 7 апреля 2007 (UTC)