Обсуждение:Юникод

Материал из Википедии — свободной энциклопедии

Это страница обсуждений и предложений для статьи «Юникод»

Пожалуйста, подписывайте свои сообщения, используя четыре тильды (~~~~).
Новые темы начинайте внизу страницы (добавить тему).
Впервые в Википедии? Добро пожаловать! Часто задаваемые вопросы.
Это не форум для обсуждения предмета статьи, а только самой статьи.

Правила обсуждений

Содержание

1 Переименование в Unicode
2 Разделение статьи
3 Ю или У?
- 3.1 Из раздела «Юникод» или «Уникод»?
4 UCS-2 и UCS-4
5 Строчная или заглавная буква
6 Юникод и программисты
7 Латинский шовинизм
8 О целостности
9 Мои правки 2006-08-01 (UTF-8)
10 Сей мир полон хреновени
11 Об «уникоде»
12 Шаблон Юникод

[править] Переименование в Unicode

Участник:Maxim Razin очень решительно переименовал статью в Unicode. Мне это кажется не очень правильным. У нас русская энциклопедия и в ней максимальное число статей должно быть названо по-русски. В данном случае русское название вполне устоялось (хотя есть споры насчёт первой буквы), да и звучит оно вполне нормально. Предлагаю совершить обратное переименование. LoKi 18:35, 28 января 2006 (UTC)

Участник:Maxim Razin, Вы утверждаете, что переименовали статью, чтобы закончить споры на тему «Ю» или «У». Так вот эти споры уже давно не ведутся, а Вы своим переименованием можете сейчас их заново развязать. LoKi 18:35, 28 января 2006 (UTC)

Я тоже за русское название. Написание латиницей следует использовать только когда более-менее общепонятного русского названия нет совсем. — Monedula 21:32, 28 января 2006 (UTC)

Поддерживаю. Аргументы в пользу «У» не кажутся мне такими уж весомыми. Давайте, пожалуйста, вернём «Юникод». CodeMonk 22:02, 28 января 2006 (UTC)

Готово, переменовал обратно. Я допускаю, что существуют и другие точки зрения на вопрос, но в отношении спорных статей лучше сначала обсуждать. Особенно когда речь идёт о настолько значительной статье. LoKi 22:56, 28 января 2006 (UTC)

Пусть будет по-русски. — doublep 23:01, 28 января 2006 (UTC)

любители Майкрософт Уиндоуз! Ну сколько можно заниматься ! Выяснили же экспериментально, что общепринятого русского названия нет, так ведь опять . Часть участников считает, что название «Юникод» никуда не годится (кстати, основное возражение противников избрания статьи), другая часть — что статью нельзя называть «Уникод», поэтому Unicode — единственное нейтральное название. Если можете предложить более нейтральное, предлагайте. Maxim Razin 00:10, 10 февраля 2006 (UTC)

Товарищ Maxim Razin! Зачем Вы опять переименовываете статью, не посоветовавшись с народом? Народ решил, что лучше всего Юникод, чуть похуже Уникод, и совсем плохо Unicode. Так что переименовывайте обратно. — Monedula 07:01, 10 февраля 2006 (UTC)

Поддерживаю. Пусть будет кириллицей. —ajvol 08:17, 10 февраля 2006 (UTC)

А другой народ решил, что Юникод ни в коем случае не годится, см. напр. ВП:КИС#Юникод. Да и в здесь в обсуждении договориться по человечески, Юникод или Уникод не удалось. Или вы считаете, что название «Юникод» более нейтрально, чем «Unicode»?

Удивляет, что сложившаяся практика — при отсутствии стандартной транслитерации давать оригинальное название — даёт осечку на этой статье. Или Java, Windows и GNU тоже надо переименовать? Maxim Razin 09:28, 10 февраля 2006 (UTC)

Не все читают ВП:КИС. Надо было сначала здесь предложить переименование, а потом переименовывать. Статья называется «Юникод» уже давно, вроде всех это устраивало. Можно попробовать устроить голосование (с 3 вариантами — Ю, У, U). — Monedula 10:09, 10 февраля 2006 (UTC)

Назовите хоть один критерий, по которому случай Unicode отличается от Java. Maxim Razin 10:56, 10 февраля 2006 (UTC)

Участник:Maxim Razin, не стыдно Вам? Вы же член Арбитражного комитета, а ведёте себя, как начинающий участник. :-(У вас одно мнение, у других участников — другое. Давайте сначала обсуждать, а потом переименовывать. LoKi 10:59, 10 февраля 2006 (UTC)

Я второй раз вынужден был переименовать статью в её исходный вариант. Настоятельно прошу не переименовывать до решения этого вопроса. Кстати, решение уже было давно принято (в пользу «Юникод»), ну да ладно: если появились новые мнения, давайте обсуждать. LoKi 11:03, 10 февраля 2006 (UTC)

Было бы обсуждение — а то ведь сплошные эмоции… Maxim Razin 18:46, 10 февраля 2006 (UTC)

Вы инициатор переименования — Вы и начните обсуждать. ;) Обсуждение, на самом деле, давно было и давно прошло. Не помню правда, на какой странице. Если кто-то знает, дайте ссылку. LoKi 18:59, 10 февраля 2006 (UTC)

Начали обсуждать задолго до меня. Мне просто надоела война У и Ю, так что захотелось решительных мер. Наверное, своими действиями я лишил сторонников У и Ю повода для holy war, за это на меня и набросились :) По крайней мере, ни одного аргумента, почему Unicode не является наиболее нейтральным вариантом, пока не поступило. Maxim Razin 17:35, 11 февраля 2006 (UTC)

Боже мой, какой детский уровень!!! :^(Ув. Максим Батькович. Неужели Вы не понимаете элементарного: если это русский вариант Википедии, то всё, за малым исключением, должно быть на русском языке, поэтому Microsoft Windows NT, Unicode должны уйти, исключая строку пояснения для 2-го? — ТЖА.

Вперёд! Докажите, что Майкрософт Уиндоус ЭнТи — это правильное название для статьи (или перестаньте троллить) Maxim Razin 19:07, 11 февраля 2006 (UTC)

Тролингом я не занимаюсь. Эту побасёнку оставьте для кого-то иного. Повторять элементарное — влом. — ТЖА.

Максим, наверное, потому, что в русском языке используется не латинский алфавит, а русский гражданский. :) – Wolliger Mensch

[править] Разделение статьи

По-моему, статья получается уже слишком большой. Предлагаю вынести разделы про UTF-8, UTF-16, UTF-32 и ISO/IEC 10646 в отдельные статьи. Есть возражения? CodeMonk 23:53, 21 июля 2005 (UTC)

Думаю, что статья ещё не такая большая, чтобы её делить. Хотя, конечно, когда-нибудь делить придётся. См. en:Unicode —ajvol 05:48, 22 июля 2005 (UTC)

Уже разделение, видимо, идёт — см. UTF-8, нужно отразить в основной статье --Yar-Tour 23:43, 1 апреля 2007 (UTC)

[править] Ю или У?

По Яндексу частота использования слова «Юникод» в 3,5 раза превышает «Уникод». А личные нападки — признак нехватки реальных аргументов. MaxiMaxiMax 12:38, 10 Окт 2004 (UTC)

Вообще-то, в Яндексе полно зеркал Википедии. То, что написано в Вики становится стандартом.—Nxx 11:40, 18 января 2006 (UTC)

Частота здесь — не показатель. Одно время было модно писать «Таллинн», «в Украине» и «Кыргызстан», но теперь здравый смысл явно побеждает. Так что и «Юникод» скоро вымрет. — Monedula 05:31, 11 Окт 2004 (UTC)

«в Украине», допустим, писать было никогда не модно. Что же касается Юникода, то, когда (если) он станет большинством писаться «Уникод», тогда и мы у себя поменяем. Не надо забегать вперёд паровоза, мы не определяем каков должен быть русский язык, мы его используем в таком виде каков он есть на текущий момент. MaxiMaxiMax 05:39, 11 Окт 2004 (UTC)

Я нигде до «Википедии» не встречал «Юникод». Уж поверьте. А мама у меня была учителем информатики. Ни в одном учебнике такого не было.—Nxx 11:42, 18 января 2006 (UTC)

Именно мы, пишущие, и определяем, каким должен быть русский язык. — Monedula 07:53, 11 Окт 2004 (UTC)

Угу, «Мы, Николай II». Может стоит несколько пересмотреть масштабы своего величия и влияния? Большинством в разговорной речи употребляется именно «Юникод», что и отражено в письменной речи. Поверьте, я совсем не против чтобы было «Уникод» или даже «Равнознак», но нужно соответствовать сложившейся ситуации MaxiMaxiMax 08:00, 11 Окт 2004 (UTC)

А если эта «сложившаяся ситуация» — плохая и неправильная? Будем ждать, когда она сама исправится? — Monedula 09:23, 11 Окт 2004 (UTC)

А чем «плоха и неправильна» ситуация с юникодом? Может, ещё Юникс в Уникс начать насильно переименовывать? Aldanur

Чем плоха и неправильна — см. саму статью. Речь как раз и идёт о том, чтобы не насаждать насильно «юникод» в качестве единственно правильного написания. — Monedula 10:15, 11 Окт 2004 (UTC)

Никто его и не насаждает. Оно само сложилось. Правильное оно или нет — судить не нам, а всем носителям русского языка. А в энциклопедии во всех статьях термины должны называться одинаково, последовательно. Поскольку именно Юникод сейчас является нормой в русском языке, то и нужно всмегда использовать его, а не так что кто как хочет тот так и пишетMaxiMaxiMax 10:22, 11 Окт 2004 (UTC)

С чего Вы взяли, что «Юникод» — более распространено? Всякий раз, когда мы слышим компьютерное слово в русской речи, мы должны сперва решить, использовано английское слово или русское. А уж потом, для русского варианта решать, насколько оно распространено. Так, очень часто у нас говорят «юзер», «партишн», «колокейшн», «мемори». Но это же не значит, что пользователь компьютера называется юзером! Просто человек не стал употреблять русское слово, а употребил английское. Хотя я сам компьютерщик и часто использую подобные слова, но статьи в энциклопедии, такие как «юзабилити», «юникод» меня шокируют. Не энциклопедия, а хакерский портал какой-то dabaume eщe bot tak pucat, y xakepob так тоже принято! Так что тут, как раз решение однозначно — по-русски приваильно «уникод». В качестве компромисса можно сделать статью с английским заголовком Unicode и создать на неё два равноправных перенаправления. Dims 20:18, 17 декабря 2005 (UTC)

Нравится это или не нравится, но сейчас в языке именно такая тенденция, заимствовать как слышыцца. И не надо гадать, как бы выглядело слово унiкодъ в XIX веке. И дело не в компьютерщиках — аниме, драм-энд-бэйс, пиар, сиквел следуют той же схеме. Maxim Razin 09:25, 18 января 2006 (UTC)

MaxiMaxiMax, Вы же не считаете всерьёз, что Яндекс может служить арбитром в данном вопросе (да и во многих других — тоже)? «Правильное оно или нет — судить не нам, а всем носителям русского языка.» — норма языка к Яндексу (или Гуглу) не имеет почти никакого отношения. Потому что норма — это не просто «среднее арифметическое». И, кстати, ни Яндекс, ни Гугол не претендуют на то, чтобы правильно отражать какие-то языковые характеристики. Всё, что Вы можете получить из этих поисковых машин — это количество ссылок, соответствующих Вашему запросу. Ни больше, ни меньше. К правильности, к норме, к грамотности это имеет только касательное отношение.

P.S. Мне одинаково не нравятся оба варианта: Юникод выглядит странно для глаза, Уникод — для уха.

—DIG 00:56, 8 Ноя 2004 (UTC)

Это не показатель. Я ставил эксперимент — переводил язык Си++ на русский язык при помощи definов. Сначала воспринимается необычно, а потом привыкаешь и даже появляется вкус. Действительно, ведь слова — это произвольные сочетания звуков. Было бы странно, если бы некоторые из них резали слух. Dims 20:25, 17 декабря 2005 (UTC)

Да пожалуйста, можно перевести хоть на китайский. Вот только тогда программистам, использующим чужой код, придётся стать полиглотами (вспоминаю, каково разбирать имена переменных и комментарии на малознакомом языке вроде нидерландского). Basic English, конечно, не идеален для международного общения, но это лучше, чем ничего. Maxim Razin 22:27, 17 декабря 2005 (UTC)

Минуточку :) В данном случае я не говорил, что это хорошо. Я просто привёл результаты своих опытов над чувством странности. Но, если уж на то пошло, разбирать чужой код в любом случае архисложная задача. Когда это приходится делать — это значит, что что-то не так построено в технологии производства. Использование чужого кода должно быть сведено к использованию открытых, хорошо документированных (причём, желательно на родном языке) интерфейсов. В случае же, когда ведётся разработка внутреннего комплексного проекта, использование имён на родном языке просто повысило бы производительность труда. В общем, в данном вопросе в определённой степени требование совместимости вступает в противоречие с требованием дружественности. В различных ситуация оптимальное решение может быть разным. Dims 15:45, 18 декабря 2005 (UTC)

Разрешите и мне своё словечко вставить. слово «Unicode» напрямую связано с английским языком, так как первоначально было «придумано» компаниями IBM и Xerox как сокращение от «Unification Code». Так что… решайте. -Влад Ярославлев 22:33, 25 Дек 2004 (UTC)

Такую ценную инфу о происхождении термина надо ИМХО писать в статье, а не на странице обсуждения. CodeMonk 23:58, 21 июля 2005 (UTC)

С другой стороны, в русском языке тоже есть слова «унификация» и «код». Что мешает нам «отзеркалить» английскую логику (то есть сделать кальку)? — Monedula 00:21, 26 Дек 2004 (UTC)

Вопрос «правильно или неправильно» не может и не должен стоять в Википедии, если есть две точки зрения, одинаково объективные, имеющие доводы в свою защиту и сторонников. Так сказано в правилах Википедии. Одинаково не может стоять и вопрос о возобладании одной точки зрения, её общепринятости. Единственное, чем можно показать приверженность точке зрения — это названием статьи. Сравните: статья помещена в Уникод, а на Юникод — редирект; или наоборот, как это есть сейчас. Так что я считаю: есть две точки зрения, обе должны быть отражены беспристрастно. Как это и сделано сейчас. Пометка «редк.» указывает на фактические данные, а именно — на частоту употребления той или иной версии (а в этом деле Яндекс и Гугл — очень даже показатели). Если в русском языке будет чаще употреблятся «уникод» — надо будет перенести статью в «Уникод», а здесь поставить редирект. И в «Уникод» поставить у «Юникод» помету «редк.». Bes island 00:50, 26 Дек 2004 (UTC)

Мне кажется, что «уникод», как сокращение от «универсальное кодирование», может относиться к чему угодно в зависимости от контекста (то есть более общее понятие), а «Юникод» — это устоявшаяся транслитерация названия станарта универсального кодорования символов языков (имя собственное). —ajvol 23:33, 13 декабря 2005 (UTC)

Дело в том, что никто не употребляет слово «уникод» в значении «универсальное кодирование» (любое) или «универсальный код» (любой). «Уникод» всегда означает «Unicode», т. е. слова «Уникод» и «Юникод» равнозначны. — Monedula 09:06, 14 декабря 2005 (UTC)

Вопрос всплывает с регулярностью, достойной иного применения. Судя по количеству ломаемых копий, ни один из вариантов нельзя назвать предпочтительным — поэтому в название лучше вынести оригинальное написание Unicode. Maxim Razin 09:25, 18 января 2006 (UTC)

[править] Из раздела «Юникод» или «Уникод»?

С пуристической же точки зрения предпочтительнее использовать написание «Уникод», так как в русском языке уже есть морфемы «уни-» и «код».
По-моему, фраза не совсем корректна: с пуристической точки зрения предпочтительнее использовать «равнознак» или «равнокод». Да я и не уверен, что стоит строить фразу таким образом: «с пуристической точки зрения предпочтительнее…» LoKi 23:12, 14 декабря 2005 (UTC)

«Unicode» — международный термин, никак не привязанный к английскому языку
Эта фраза также вызывает сомнение. «Unicode», безусловно, произошёл именно от английских слов и в английском языке. А то, что сейчас это слово используется повсеместно, не имеет значения: мы ведь рассматриваем именно генезис слова. LoKi 23:12, 14 декабря 2005 (UTC)

Вообще-то, хоть слово возникло в английском, но от заимствованных из латыни слов.—Nxx 10:51, 18 января 2006 (UTC)

Участники забыли о процесах стандартизации языка, поэтому будут писать «уникод».

[править] UCS-2 и UCS-4

В статью надо бы внести понятия UCS-2 и UCS-4. Кратко сказано, что когда-то было 16 бит, но нужны формулировки.

Кстати, в Microsoft OS-ах действительно UTF-16 или только UCS-2? Понимает ли винда символы выше 0xFFFF? —Maxim Razin 23:50, 4 Янв 2005 (UTC)

Начиная с Windows 2000 у них везде UTF-16, а до этого было UCS-2. — Monedula 03:38, 5 Янв 2005 (UTC)

Действительно было бы неплохо написать, что такое UCS-2/UCS-4 и чем они отличаются от UTF-16/UTF-32, дабы такие как я не продолжали пребывать в уверении, что это одно и то же :) SiMM 10:22, 24 июн 2005 (UTC)

Кстати, не совсем так, разница очень небольшая но есть. В ядре WCHAR (т.е. это ближе к UCS-2) (кэш, если сервер лежит) так и остается, а уже сверху, на уровне Uniscribe, сделана работа с суррогатами. drdaeman 07:50, 25 сентября 2006 (UTC)

Коллеги, ну так:

старший байт (MSB) может записываться либо перед младшим (UTF-16 Big Endian, от big end-ian* — большим концом), либо после младшего (UTF-16 Little Endian, от little end-ian* — малым концом).

по русски уже не пишут. Двусмысленность какая-то!

Вданном контексте нельзя говорить о «большом» или «малом», так my big brother переводится как «мой старший брат», а не «мой большой брат». Я - за «старшее окончание» / «младшее окончание». --AlefZet 08:01, 2 августа 2006 (UTC)

Не понимаю, в чём двусмысленность? CodeMonk 13:34, 13 августа 2005 (UTC)

Двусмысленность в слове «конец». Конечно, каждый всё понимает в меру своей испорченности, но, чтобы устранить двусмысленность совсем, предлагаю заменить «конец» на «окончание». То есть, например, писать «с большим окончанием». LoKi 11:14, 14 декабря 2005 (UTC)

Не стоит принимать это в расчёт. —CodeMonk 20:46, 18 января 2006 (UTC)

По-моему, тоже. ;) LoKi 14:59, 19 января 2006 (UTC)

[править] Строчная или заглавная буква

Мне кажется, что «Юникод» является названием и следовательно должен писаться с заглавной буквы. Так, например, это делается на сайте Майкрософт [1]. —ajvol 07:59, 26 ноября 2005 (UTC)

Слово «уникод» действительно должно писаться с маленькой буквы как сокращение от «универсальный код». Кстати Лингво переводит «Unicode» именно как «уникод» (со строчной буквы) и даже не даёт варианта написания «Юникод». —ajvol 07:50, 8 декабря 2005 (UTC)

Lingvo ни в коем случае не должен считаться экспертом в области правописания, произношения и т. п. Хотя я глубоко уважаю и постоянно использую этот словарь, я никогда не обращаюсь к нему в спорных случаях, так как Lingvo содержит массу ошибок. LoKi 11:19, 14 декабря 2005 (UTC)

Уникод — это собственное имя технологии, согласено правилам должно писаться с большой буквы.--A.I. 12:18, 14 декабря 2005 (UTC)

[править] Юникод и программисты

Раздел очень виндоцентричный. Перенёс содержание в отдельную статью Юникод в операционных системах Microsoft, а вместо него напишу «Реализации» с упоминанием основных ОС, и сред разработки (Java как первопроходец). Maxim Razin 10:24, 11 декабря 2005 (UTC)

[править] Латинский шовинизм

Просто так, констатация. Любопытно заметить, что то, что в Юникоде (и во всех других кодах) латинские буквы кодируются одинаково, называется модным и уважаемым словом «совместимость», а аналогичное желание с русскими буквами никак не называется и никто к этому не стремится, вследствие чего мы имеем бардак с русскими кодировками. Dims 14:39, 16 декабря 2005 (UTC)

Вы кажется плохо знаете историю и принцыпы кодирования… Дело в том, что ещё давно латинские буквы (точнее американские) и спец. символы были определны в стандарте ASCII (там определялось первые 128 симоволов). И ASCII стал общепринятым стандартом, который и «держит» Unicode (там не только буквы, но и основные спец. симовлы). В том же ASCII (или другом нормативном документе) обсуждалось, что остальные 129—256 символов будут кодироваться в зависимости от языка. С русским есть огромные разнобой даже в этом — поскольку очень не много языков содержат такую неразбириху с кодировками… И какое желание может быть с русскими буквами, когда номера от 129—256 занимают так же буквы кучи других алфавитов? --A.I. 14:47, 16 декабря 2005 (UTC)

Давайте не будем начинать с обвинений. Я начинал работать ещё на ЕС-1010. БЭСМ, правда, не застал. Так вот, я, как раз, и обращаю внимание на забавный факт, что у нас, у русских, когда говоришь о латинском алфавите, они прекрасно понимают, что такое совместимость. А когда о русском, то словно отключается какая-то часть мозга. Вы разве не понимаете, что стандарт ASCII, где буква A означает American, просто-напросто наплевал на совместимость для русского алфавита? И это естественно, посколько с какой стати оны должны заботиться о нас. Непонятно, почему наши этого не понимают. Нужно было разработать свой стандарт, где коды от 0-128 отданы русским буквам, вот и всё. Dims 15:19, 16 декабря 2005 (UTC)

Ага, и разработать свои собственные операционные системы, которые бы такое насилие над аски переваривали бы, и софтику понаписать… На самопальных компиляторах, ессно. Чтоуж, Расея всегда была родиной слонов --MaxSem^talk 15:53, 16 декабря 2005 (UTC)

Почему такая парадоксальная реакция? Почему мы адекватно воспринимаем желание производить собственные продукты питания, собственные самолёты, собственные автомобили, но когда речь заходит о собственных операционных системах, то крыша едет? Ещё когда компьютеры были не так распространены, меня ещё тогда удивляло, почему какая-нибудь версия Юникс или дажа совершенно своя операционная система, которая ни с чем не совместима — и та писалась с использованием английского языка и кодировок? Dims 08:19, 17 декабря 2005 (UTC)

См. КОИ-7. Там русские буквы расположены как раз так, как Вам хочется (в диапазоне 0-128). Жаль только, что никто его не использует (по вполне понятным причинам). — Monedula 18:49, 16 декабря 2005 (UTC)

Конечно по понятным — лежащим в области психологии. Каждый раз, когда американцы собирались, чтобы придумать новую кодировку, они аккуратно заботились о совместимости, о сохранении инвестиций. Каждый раз, когда собирались мы, мы рушили всё до основания и переделывали всё с нуля. Видимо, из страха оказаться «родиной слонов». Dims 08:19, 17 декабря 2005 (UTC)

Те же американцы не побоялись отказаться от EBCDIC или, скажем, кода Бодо. Maxim Razin 08:26, 17 декабря 2005 (UTC)

См. для примера en:Polish codepages. Тот же бардак (к счастью, распространяющийся только на часть польских букв — те, которые с диакритикой). — Monedula 15:02, 16 декабря 2005 (UTC)

[править] О целостности

В обсуждении были баталии — как назвать статью: по-русски, еще раз по-русски или по-английски… А в статье черным по белому наспиано:

"На сайте консорциума есть специальная страница(…). Для русской кириллицы указан вариант «Юникод».

«В Википедии используется наиболее широко распространённый вариант».

— То есть «Юникод»

Сказали — официально используется «Юникод» — так надо его и использовать…

С уважением Колесников П. А. 12:03, 16 июня 2006 (UTC)

Хм. Забавно. А Вам не кажется, Колесников П. А., что Ваша реплика сама очень напоминает то, что Вы так раскритиковали? LoKi 12:10, 16 июня 2006 (UTC)

Прошу прощения за столь «горячую» реакцию. Просто очень зацепило. Спасибо за исправления в ссылках — я как-то и не догадался посмотреть туда. Еще раз прошу извинить за троллинг. А изменения в тексте У->Ю, кроме ссылок естественно, сделал я, только еще не зарегристрировавшийся, поэтому и возмутился.... Колесников П.А. 19:39, 16 июня 2006 (UTC)

Нет проблем. :)

[править] Мои правки 2006-08-01 (UTF-8)

Нет смысла в этой статье расписывать все тонкости латинского алфавита (про J, W и т. п.).
Западноевропейские буквы с диакритиками в UTF-8 изображаются двумя байтами, тут была явная ошибка.

Да, тут я спутал юникод как таковой с представлением в UTF-8.--AlefZet 07:44, 2 августа 2006 (UTC)

UTF-8 не может быть «переходным (от ASCII к Юникоду) форматом», потому что он и есть Юникод, и никуда от него переходить не надо. — Monedula 09:06, 1 августа 2006 (UTC)

Пункт 3 я написал и готов здесь поспорить. UTF-8 это не чистый Юникод, это переходный гибридный формат, который призван обеспечить обратную совместимость между Юникодом и ASCII. --CodeMonk 23:59, 1 августа 2006 (UTC)

Переходным, простите, куда? (в смысле, к какому представлению?) Представление UTF-8 обеспечивает все возможности Юникода (в отличие, например, от древнего UCS-2). Ну а совместимость - это приятное дополнение. Maxim Razin 00:31, 2 августа 2006 (UTC)

Переходный от ASCII к Юникоду. --CodeMonk 21:14, 2 августа 2006 (UTC)

Тут дело в том, что поначалу Юникод представлялся как фиксированная 16-битная кодировка (отсюда и традиция обозначения символов 4-разрядными 16-ричными числами, типа U+0443). В настоящее же время принято, что символы Юникода кодируются абстрактными целыми числами, которые в компьютере можно представлять множеством разных способов. Поэтому сейчас нет никаких причин считать UTF-8 не чистым Юникодом. — Monedula 05:53, 2 августа 2006 (UTC)

А тут вы неправы. Во-первых исторически Юникод был предложен именно в 32 битной последовательности компанией Microsoft. Под давлением Adobe и других шрифтостроителей была избрана 16 битная последовательность. Во-вторых не надо путать стандарт с его представлением. Выражение «переходным (от ASCII к Юникоду) форматом», конечно же неудачное, поскольку об ASCII можно говорить только про вымирающий формат UTF-7. И ещё: слово «переходный» в русском языке предполагает вре́менность, м.б. лучше «транзитный» или «промежуточный»? --AlefZet 07:44, 2 августа 2006 (UTC)

Я не против «промежуточный», хотя не вижу особого отличия от «переходный». --CodeMonk 21:14, 2 августа 2006 (UTC)

Прежде всего, UTF-8 не чистый Юникод, потому что в нём неправильно (не в формате Юникод, а фактически в формате ASCII) кодируются символы английского алфавита. --CodeMonk 21:14, 2 августа 2006 (UTC)

Как это «неправильно»? А как же кодировать «правильно»? Ещё раз объясняю: в настоящее время Юникодовский номер — это просто абстрактное число (не двоичное, не десятичное, не шестнадцатеричное, не 16-битное, не 32-битное и т. п.) Это число в компьютере можно кодировать как угодно, его сущность от этого никак не меняется. Более того, сейчас даже традиционные 8-битные кодировки (типа KOI-8) превратились в форму представления Юникода, поскольку они определяются таблицей соответствия между этой кодировкой и Юникодом. — Monedula 06:07, 3 августа 2006 (UTC)

Ну сейчас и старые версии HTML считают подмножеством XHTML, но от этого они не становятся «чистым» и «правильным» XHTML. Следуя этой логике можно считать и ASCII частью Юникода, и KOI-8, и это формально будет правдой, но ни ASCII ни KOI-8 от этого в Юникод не превратятся. --CodeMonk 20:26, 3 августа 2006 (UTC)

Так я и не понял, что же Вы считаете Юникодом? UTF-16 и UTF-32 ведь тоже не являются Юникодом — это только способ его представления. (А HTML, кстати, не является подмножеством XHTML.) — Monedula 06:18, 4 августа 2006 (UTC)

«Чистым» Юникодом я считаю 32-битное кодирование символов, как это обозначено в чартах Юникода. (Рад, что вы не считаете HTML вариантом XHTML.)--CodeMonk 20:57, 4 августа 2006 (UTC)

В чартах Юникода про 32-битное кодирование ничего не сказано. Там просто шестнадцатеричные числа. — Monedula 19:21, 5 августа 2006 (UTC)

Вы шутите? В чартах написаны 32-битные коды каждого символа. Например, для ℉ это 2109, что и отобразится, если в HTML написать ℉. Вот именно это и есть код, это не просто шестнадцатеричные числа. --CodeMonk 21:03, 6 августа 2006 (UTC)

Вы обсчитались. 0x2109 — это 16 бит, а не 32. А в HTML можно записать и в десятичном коде ℉ — это никак не изменит сущность записанного символа. — Monedula 05:28, 7 августа 2006 (UTC)

Нет, я не обсчитался, в чартах указаны именно 32-битные коды. И 0x2109 это код, который занимает в памяти 32 бита и обозначается во внтуреннем программном представлении как int32. В данном случае не важно, что число может реально занимать меньше 32 бит (в нашем случае только 14 бит, 0x2109 = 8457 < 2¹⁴ = 16384), код всё равно будет занимать в памяти 32 бита. Это сделано для возможностей будущего расширения чартов Юникода, когда появятся символы с более крупными кодами. --CodeMonk 19:12, 8 августа 2006 (UTC)

Какая-такая «память»? У Юникода нет никакой «памяти», и про int32 в стандарте ничего не сказано. А чарты Юникода никто расширять и не собирается. Для кодов установлен предел 0x10FFFF, поэтому 21 бита будет всегда достаточно. Если кто-то использует для хранения кодов 32-битные (или 36-битные) поля — это его проблемы. — Monedula 06:16, 9 августа 2006 (UTC)

Какие проблемы? UTF-32 предполагает именно 32-битные коды. И именно они указаны в чартах Юникода. Про int32: я говорю про реализацию поддержки Юникода внутри программ. У всех крупных производителей поле реализовано как int32. Да никто и не будет реализовывать это как 21-битную или 24-битную величину, поскольку это не рационально с точки зрения современных 32-битных и будущих 64-битных микропроцессоров. Поэтому 21-битного кода не будет. --CodeMonk 00:15, 10 августа 2006 (UTC)

UTF-32 — это лишь один из способов изображения символов Юникода в компьютере. Внутри программ он может быть удобнее других. Но при записи в файл он очень неудобен из-за: (1) громоздкости (2) зависимости от порядка байтов (3) несовместимости с файлами ASCII. Поэтому-то стандарт Юникода и не предписывает UTF-32 в качестве «самого правильного». — Monedula 06:32, 10 августа 2006 (UTC)

Я понимаю, что кодировка UTF-32 длиннее UTF-8, но чистым Юникодом я считаю именно её. Аргументы я уже приводил. Я уже устал спорить по этому поводу. --CodeMonk 22:06, 10 августа 2006 (UTC)

Да, спор подзатянулся. В целом у нас расхождение в том, что Вы считаете «чистым Юникодом» UTF-32, а я считаю, что «чистый Юникод» существует лишь в воображении, а в компьютере есть только разные его реализации. — Monedula 06:28, 11 августа 2006 (UTC)

Вообще, судя по всему, UTF-8 становится окончательным всеобщим стандартом для файлов plain text, а UTF-32 вряд ли когда-нибудь будет использоваться кроме как во внутреннем представлении в программах. Так что называть UTF-8 «переходным» или «временным» не сто́ит. — Monedula 05:28, 7 августа 2006 (UTC)

Да, я вижу, что UTF-8 становится самостоятельным стандартом, взять хотя бы кодировку нашей Википедии. Не знаю во что это выльется. Надеюсь, что это временное явление, которое пройдёт вместе с отмиранием ASCII. --CodeMonk 19:12, 8 августа 2006 (UTC)

Но почему же «временное»? UTF-8 всех устраивает, зачем от него отказываться? — Monedula 06:16, 9 августа 2006 (UTC)

Если какой-либо производитель захочет, наконец, создать т. н. «legacy-free» систему без поддержки ASCII, то пропадёт надобность и в англоцентричной кодировке UTF-8. Ведь ASCII используется всё меньше. В той же Windows XP использование ASCII уже сокращено до минимума. --CodeMonk 00:15, 10 августа 2006 (UTC)

Пусть UTF-8 и англоцентричная, зато она самая удобная, поэтому никто от UTF-8 просто так не откажется. А исходные тексты программ, по-видимому, всегда будут писаться в ASCII, тут уж ничего не поделаешь. — Monedula 06:32, 10 августа 2006 (UTC)

Тексты программ пишутся в специальных текстовых редакторах, и эти редакторы, по крайней мере у известных производителей, уже давно отходят от использования ASCII. Да иначе и нельзя: как бы иначе в тексте программ задавались строковые константы на других языках? Никак. А это в современных программах часто бывает необходимо. --CodeMonk 22:06, 10 августа 2006 (UTC)

А вот тут-то и приходит на помощь UTF-8: основная часть программы как была, так и остаётся в ASCII, а где нужны национальные символы (в комментариях или ещё где) — ставятся байты UTF-8. — Monedula 06:28, 11 августа 2006 (UTC)

Хорошо. Я устал спорить. Давайте откажемся от слова «переходный», я думаю, в статье и так достаточно сказано о совместимости с ASCII. --CodeMonk 21:18, 11 августа 2006 (UTC)

Пожалуй, пора разделы о конкретных реализациях/представлениях UTF-8 и др. вынести из основной статьи, поскольку к непосредственно Юникоду не имеют отношения. --AlefZet 07:50, 2 августа 2006 (UTC) ℉

[править] Сей мир полон хреновени

Какие только бредни не прочтёш в Вике: вечность допотопного ASCII, связь с микропроцесором кодировки (интересно, когда изменится архитектрура ВС, что произойдёт?). Я охреневаю потихоньку/тихо, шифером шурша, едет крыша, не спеша... 65.54.154.13

ASCII будет жить, пока живы UNIX и C. — Monedula 06:28, 11 августа 2006 (UTC)

Благодарю за разъяснение. 65.54.154.17

Если когда-нибудь появятся, скажем, 20-битные процессоры (хотя это очень наврядли), то могут появиться и 20-битные переменные под 5/10/20-битные регистры такого процессора. А пока стандартные переменные, включая кодировки символов, кратны 8 битам (1 байту), поскольку элементарный раздел регистра микропроцессора, к которому можно обратиться, это 8 бит. Это удобно. --CodeMonk 20:52, 11 августа 2006 (UTC)

Вы не въезжаете. Офтоп. Почему Вы ограничились 64-битовым (в предыдущей секции) м-процем (микропроцесор), а не 1К (1024)-м? Конец_офтопа. Я имел ввиду вообще отказ от текущей архитектуры. Не будет она существовать вечно. Что произойдёт с кодировкой? У каждого своя религия: для Монедулы — это допотопные Юникс и Си, для Вас — текущая разрядность м-проца. Поэтому столь удручающ Ваш диалог. 65.54.98.27 21:15, 11 августа 2006 (UTC)

Что произойдёт с кодировкой, спрашиваете? А вот что: первые 128 позиций как совпадали с ASCII, так и будут совпадать. — Monedula 06:12, 14 августа 2006 (UTC)

[править] Об «уникоде»

Я прошу прощения, что вмешиваюсь в ваши беседы о названиях. Я хотел бы только высказать точку зрения одного лингвиста. Свою. :)

Было мнение о том, что кем-то там в консорциуме предписано, что по-русски правильно «Юникод», значит нужно так писать и говорить. Все это глупости, не стоящие выеденного яйца. Мы уже проходили, когда из заграницы нам предписывали, что и как по-русски правильно говорить и писать, напр., из Эстонии, — что правильно Таллинн, а не Таллин, с Украины, — что нужно «в Украине», а не «на Украине», из Молдавии, — что правильно «Молдова», а не «Молдавия» и т. д. и т. п. Конечно, слово Unicode не настолько в русском языке прижилось, как, например, «Молдавия», но сути дела это не меняет. Например, фирма Unitas «Единство» (лат.) делала унитазы, у нас в слове «унитас» быстро распознали конец -таз (который, как вы понимаете, никакого отношения к латинскому суффиксу -tas не имеет), и стали так писать и говорить (род. п. «унитаза» и т. д.), ничего, никто не умер, но зато появилось новое уникальное слово в русском языке. Язык обогатился. А обогатился бы он, если бы до сих пор писали бы в кавычках название фирмы: «Купил себе новый „Унитас“»? То же самое с патефонами и ксероксами. В слове Unicode, наверное, только слепой не увидит двух привычных уже частей: уни- и -код, которые, ко всему прочему, и замечательно расшифровываются и на русской почве: универсальная кодировка. Форма «юникод» встречается чаще в Яндексе по одной простой причине: большинство пишущих в интернете из иностранных языков знают только английский, часто хреново, при этом умуюдряются так же хреново знать русский, но все равно на нем пишут, отсюда и тупое переписывание английских названий в русском тексте (что пишут русскими буквами «Юникод» — это даже прогресс, а то без обиняков — латинскими). Давление англоязычного интернета на мозги наших «писателей» иногда вообще доходит до абсурда: на одном спортивном сайте имя болгарского спортсмена было дано в английской транскрипции (!).

Я согласен с теми, кто говорил, что форма «юникод» вымрет. Такие слова-уродцы появляются поначалу, когда слово еще новое и не обжилось в языке, но потом все возвращается к нормальному состоянию. Думаю, что этот случай не станет исключением.

Это все, конечно, ИМХО.

[Кстати, слово «интернет» тоже сначала не склонялось, и тоже спорили. Прошло. ;)]

Я прошу прощения. По неумелости стер предыдущее сообщение. Теперь восстановил.

Добавлю мысль, которую хотел написать сначала, но забыл. :) Форма «юникод» в названии организации «Юникод Консорциум» вполне уместна, но сам стандарт, который фактически перестал быть собственным именем, я называю «уникод», чего и всем желаю. :)

Просто Вики не должна идти в первой в словоупотреблении, вот когда будут чаще писать и говорить, «Уни», тогда и статью можно будет переименовывать. --ajvol 06:34, 29 августа 2006 (UTC)

[править] Шаблон Юникод

Есть ли шаблон, предупреждающий о том, что некоторые символы могут отображаться некорректно, как в других википедиях? Grenadine 17:00, 29 октября 2006 (UTC)