New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Обсуждение:Юникод — Википедия

Обсуждение:Юникод

Материал из Википедии — свободной энциклопедии

Это страница обсуждений и предложений для статьи «Юникод»
Правила обсуждений

Содержание

[править] Переименование в Unicode

Участник:Maxim Razin очень решительно переименовал статью в Unicode. Мне это кажется не очень правильным. У нас русская энциклопедия и в ней максимальное число статей должно быть названо по-русски. В данном случае русское название вполне устоялось (хотя есть споры насчёт первой буквы), да и звучит оно вполне нормально. Предлагаю совершить обратное переименование. LoKi 18:35, 28 января 2006 (UTC)

Участник:Maxim Razin, Вы утверждаете, что переименовали статью, чтобы закончить споры на тему «Ю» или «У». Так вот эти споры уже давно не ведутся, а Вы своим переименованием можете сейчас их заново развязать. LoKi 18:35, 28 января 2006 (UTC)

Я тоже за русское название. Написание латиницей следует использовать только когда более-менее общепонятного русского названия нет совсем. — Monedula 21:32, 28 января 2006 (UTC)
Поддерживаю. Аргументы в пользу «У» не кажутся мне такими уж весомыми. Давайте, пожалуйста, вернём «Юникод». CodeMonk 22:02, 28 января 2006 (UTC)

Готово, переменовал обратно. Я допускаю, что существуют и другие точки зрения на вопрос, но в отношении спорных статей лучше сначала обсуждать. Особенно когда речь идёт о настолько значительной статье. LoKi 22:56, 28 января 2006 (UTC)

Пусть будет по-русски. — doublep 23:01, 28 января 2006 (UTC)

<!--грязные ругательства--> любители Майкрософт Уиндоуз! Ну сколько можно заниматься <!--ещё более грязные ругательства-->! Выяснили же экспериментально, что общепринятого русского названия нет, так ведь опять <!--совсем грязные ругательства-->. Часть участников считает, что название «Юникод» никуда не годится (кстати, основное возражение противников избрания статьи), другая часть — что статью нельзя называть «Уникод», поэтому Unicode — единственное нейтральное название. Если можете предложить более нейтральное, предлагайте. Maxim Razin 00:10, 10 февраля 2006 (UTC)

Товарищ Maxim Razin! Зачем Вы опять переименовываете статью, не посоветовавшись с народом? Народ решил, что лучше всего Юникод, чуть похуже Уникод, и совсем плохо Unicode. Так что переименовывайте обратно. — Monedula 07:01, 10 февраля 2006 (UTC)
Поддерживаю. Пусть будет кириллицей. —ajvol 08:17, 10 февраля 2006 (UTC)
А другой народ решил, что Юникод ни в коем случае не годится, см. напр. ВП:КИС#Юникод. Да и в здесь в обсуждении договориться по человечески, Юникод или Уникод не удалось. Или вы считаете, что название «Юникод» более нейтрально, чем «Unicode»?
Удивляет, что сложившаяся практика — при отсутствии стандартной транслитерации давать оригинальное название — даёт осечку на этой статье. Или Java, Windows и GNU тоже надо переименовать? Maxim Razin 09:28, 10 февраля 2006 (UTC)
Не все читают ВП:КИС. Надо было сначала здесь предложить переименование, а потом переименовывать. Статья называется «Юникод» уже давно, вроде всех это устраивало. Можно попробовать устроить голосование (с 3 вариантами — Ю, У, U). — Monedula 10:09, 10 февраля 2006 (UTC)

Назовите хоть один критерий, по которому случай Unicode отличается от Java. Maxim Razin 10:56, 10 февраля 2006 (UTC)

Участник:Maxim Razin, не стыдно Вам? Вы же член Арбитражного комитета, а ведёте себя, как начинающий участник. :-(У вас одно мнение, у других участников — другое. Давайте сначала обсуждать, а потом переименовывать. LoKi 10:59, 10 февраля 2006 (UTC)

Я второй раз вынужден был переименовать статью в её исходный вариант. Настоятельно прошу не переименовывать до решения этого вопроса. Кстати, решение уже было давно принято (в пользу «Юникод»), ну да ладно: если появились новые мнения, давайте обсуждать. LoKi 11:03, 10 февраля 2006 (UTC)

Было бы обсуждение — а то ведь сплошные эмоции… Maxim Razin 18:46, 10 февраля 2006 (UTC)
Вы инициатор переименования — Вы и начните обсуждать. ;) Обсуждение, на самом деле, давно было и давно прошло. Не помню правда, на какой странице. Если кто-то знает, дайте ссылку. LoKi 18:59, 10 февраля 2006 (UTC)
Начали обсуждать задолго до меня. Мне просто надоела война У и Ю, так что захотелось решительных мер. Наверное, своими действиями я лишил сторонников У и Ю повода для holy war, за это на меня и набросились :) По крайней мере, ни одного аргумента, почему Unicode не является наиболее нейтральным вариантом, пока не поступило. Maxim Razin 17:35, 11 февраля 2006 (UTC)
Боже мой, какой детский уровень!!! :^(Ув. Максим Батькович. Неужели Вы не понимаете элементарного: если это русский вариант Википедии, то всё, за малым исключением, должно быть на русском языке, поэтому Microsoft Windows NT, Unicode должны уйти, исключая строку пояснения для 2-го? — ТЖА.
Вперёд! Докажите, что Майкрософт Уиндоус ЭнТи — это правильное название для статьи (или перестаньте троллить) Maxim Razin 19:07, 11 февраля 2006 (UTC)
Тролингом я не занимаюсь. Эту побасёнку оставьте для кого-то иного. Повторять элементарное — влом. — ТЖА.
Максим, наверное, потому, что в русском языке используется не латинский алфавит, а русский гражданский. :) – Wolliger Mensch

[править] Разделение статьи

По-моему, статья получается уже слишком большой. Предлагаю вынести разделы про UTF-8, UTF-16, UTF-32 и ISO/IEC 10646 в отдельные статьи. Есть возражения? CodeMonk 23:53, 21 июля 2005 (UTC)

Думаю, что статья ещё не такая большая, чтобы её делить. Хотя, конечно, когда-нибудь делить придётся. См. en:Unicodeajvol 05:48, 22 июля 2005 (UTC)
Уже разделение, видимо, идёт — см. UTF-8, нужно отразить в основной статье --Yar-Tour 23:43, 1 апреля 2007 (UTC)

[править] Ю или У?

По Яндексу частота использования слова «Юникод» в 3,5 раза превышает «Уникод». А личные нападки — признак нехватки реальных аргументов. MaxiMaxiMax 12:38, 10 Окт 2004 (UTC)

Вообще-то, в Яндексе полно зеркал Википедии. То, что написано в Вики становится стандартом.—Nxx 11:40, 18 января 2006 (UTC)


Частота здесь — не показатель. Одно время было модно писать «Таллинн», «в Украине» и «Кыргызстан», но теперь здравый смысл явно побеждает. Так что и «Юникод» скоро вымрет. — Monedula 05:31, 11 Окт 2004 (UTC)
«в Украине», допустим, писать было никогда не модно. Что же касается Юникода, то, когда (если) он станет большинством писаться «Уникод», тогда и мы у себя поменяем. Не надо забегать вперёд паровоза, мы не определяем каков должен быть русский язык, мы его используем в таком виде каков он есть на текущий момент. MaxiMaxiMax 05:39, 11 Окт 2004 (UTC)
Я нигде до «Википедии» не встречал «Юникод». Уж поверьте. А мама у меня была учителем информатики. Ни в одном учебнике такого не было.—Nxx 11:42, 18 января 2006 (UTC)


Именно мы, пишущие, и определяем, каким должен быть русский язык. — Monedula 07:53, 11 Окт 2004 (UTC)
Угу, «Мы, Николай II». Может стоит несколько пересмотреть масштабы своего величия и влияния? Большинством в разговорной речи употребляется именно «Юникод», что и отражено в письменной речи. Поверьте, я совсем не против чтобы было «Уникод» или даже «Равнознак», но нужно соответствовать сложившейся ситуации MaxiMaxiMax 08:00, 11 Окт 2004 (UTC)
А если эта «сложившаяся ситуация» — плохая и неправильная?  Будем ждать, когда она сама исправится? — Monedula 09:23, 11 Окт 2004 (UTC)
А чем «плоха и неправильна» ситуация с юникодом? Может, ещё Юникс в Уникс начать насильно переименовывать? Aldanur
Чем плоха и неправильна — см. саму статью.  Речь как раз и идёт о том, чтобы не насаждать насильно «юникод» в качестве единственно правильного написания. — Monedula 10:15, 11 Окт 2004 (UTC)
Никто его и не насаждает. Оно само сложилось. Правильное оно или нет — судить не нам, а всем носителям русского языка. А в энциклопедии во всех статьях термины должны называться одинаково, последовательно. Поскольку именно Юникод сейчас является нормой в русском языке, то и нужно всмегда использовать его, а не так что кто как хочет тот так и пишетMaxiMaxiMax 10:22, 11 Окт 2004 (UTC)
С чего Вы взяли, что «Юникод» — более распространено? Всякий раз, когда мы слышим компьютерное слово в русской речи, мы должны сперва решить, использовано английское слово или русское. А уж потом, для русского варианта решать, насколько оно распространено. Так, очень часто у нас говорят «юзер», «партишн», «колокейшн», «мемори». Но это же не значит, что пользователь компьютера называется юзером! Просто человек не стал употреблять русское слово, а употребил английское. Хотя я сам компьютерщик и часто использую подобные слова, но статьи в энциклопедии, такие как «юзабилити», «юникод» меня шокируют. Не энциклопедия, а хакерский портал какой-то dabaume eщe bot tak pucat, y xakepob так тоже принято! Так что тут, как раз решение однозначно — по-русски приваильно «уникод». В качестве компромисса можно сделать статью с английским заголовком Unicode и создать на неё два равноправных перенаправления. Dims 20:18, 17 декабря 2005 (UTC)
Нравится это или не нравится, но сейчас в языке именно такая тенденция, заимствовать как слышыцца. И не надо гадать, как бы выглядело слово унiкодъ в XIX веке. И дело не в компьютерщиках — аниме, драм-энд-бэйс, пиар, сиквел следуют той же схеме. Maxim Razin 09:25, 18 января 2006 (UTC)
MaxiMaxiMax, Вы же не считаете всерьёз, что Яндекс может служить арбитром в данном вопросе (да и во многих других — тоже)? «Правильное оно или нет — судить не нам, а всем носителям русского языка.» — норма языка к Яндексу (или Гуглу) не имеет почти никакого отношения. Потому что норма — это не просто «среднее арифметическое». И, кстати, ни Яндекс, ни Гугол не претендуют на то, чтобы правильно отражать какие-то языковые характеристики. Всё, что Вы можете получить из этих поисковых машин — это количество ссылок, соответствующих Вашему запросу. Ни больше, ни меньше. К правильности, к норме, к грамотности это имеет только касательное отношение.
P.S. Мне одинаково не нравятся оба варианта: Юникод выглядит странно для глаза, Уникод — для уха.
DIG 00:56, 8 Ноя 2004 (UTC)
Это не показатель. Я ставил эксперимент — переводил язык Си++ на русский язык при помощи definов. Сначала воспринимается необычно, а потом привыкаешь и даже появляется вкус. Действительно, ведь слова — это произвольные сочетания звуков. Было бы странно, если бы некоторые из них резали слух. Dims 20:25, 17 декабря 2005 (UTC)
Да пожалуйста, можно перевести хоть на китайский. Вот только тогда программистам, использующим чужой код, придётся стать полиглотами (вспоминаю, каково разбирать имена переменных и комментарии на малознакомом языке вроде нидерландского). Basic English, конечно, не идеален для международного общения, но это лучше, чем ничего. Maxim Razin 22:27, 17 декабря 2005 (UTC)
Минуточку :) В данном случае я не говорил, что это хорошо. Я просто привёл результаты своих опытов над чувством странности. Но, если уж на то пошло, разбирать чужой код в любом случае архисложная задача. Когда это приходится делать — это значит, что что-то не так построено в технологии производства. Использование чужого кода должно быть сведено к использованию открытых, хорошо документированных (причём, желательно на родном языке) интерфейсов. В случае же, когда ведётся разработка внутреннего комплексного проекта, использование имён на родном языке просто повысило бы производительность труда. В общем, в данном вопросе в определённой степени требование совместимости вступает в противоречие с требованием дружественности. В различных ситуация оптимальное решение может быть разным. Dims 15:45, 18 декабря 2005 (UTC)

Разрешите и мне своё словечко вставить. слово «Unicode» напрямую связано с английским языком, так как первоначально было «придумано» компаниями IBM и Xerox как сокращение от «Unification Code». Так что… решайте. -Влад Ярославлев 22:33, 25 Дек 2004 (UTC)

Такую ценную инфу о происхождении термина надо ИМХО писать в статье, а не на странице обсуждения. CodeMonk 23:58, 21 июля 2005 (UTC)
С другой стороны, в русском языке тоже есть слова «унификация» и «код». Что мешает нам «отзеркалить» английскую логику (то есть сделать кальку)? — Monedula 00:21, 26 Дек 2004 (UTC)

Вопрос «правильно или неправильно» не может и не должен стоять в Википедии, если есть две точки зрения, одинаково объективные, имеющие доводы в свою защиту и сторонников. Так сказано в правилах Википедии. Одинаково не может стоять и вопрос о возобладании одной точки зрения, её общепринятости. Единственное, чем можно показать приверженность точке зрения — это названием статьи. Сравните: статья помещена в Уникод, а на Юникод — редирект; или наоборот, как это есть сейчас. Так что я считаю: есть две точки зрения, обе должны быть отражены беспристрастно. Как это и сделано сейчас. Пометка «редк.» указывает на фактические данные, а именно — на частоту употребления той или иной версии (а в этом деле Яндекс и Гугл — очень даже показатели). Если в русском языке будет чаще употреблятся «уникод» — надо будет перенести статью в «Уникод», а здесь поставить редирект. И в «Уникод» поставить у «Юникод» помету «редк.». Bes island 00:50, 26 Дек 2004 (UTC)

Мне кажется, что «уникод», как сокращение от «универсальное кодирование», может относиться к чему угодно в зависимости от контекста (то есть более общее понятие), а «Юникод» — это устоявшаяся транслитерация названия станарта универсального кодорования символов языков (имя собственное). —ajvol 23:33, 13 декабря 2005 (UTC)

Дело в том, что никто не употребляет слово «уникод» в значении «универсальное кодирование» (любое) или «универсальный код» (любой). «Уникод» всегда означает «Unicode», т. е. слова «Уникод» и «Юникод» равнозначны. — Monedula 09:06, 14 декабря 2005 (UTC)

Вопрос всплывает с регулярностью, достойной иного применения. Судя по количеству ломаемых копий, ни один из вариантов нельзя назвать предпочтительным — поэтому в название лучше вынести оригинальное написание Unicode. Maxim Razin 09:25, 18 января 2006 (UTC)

[править] Из раздела «Юникод» или «Уникод»?

С пуристической же точки зрения предпочтительнее использовать написание «Уникод», так как в русском языке уже есть морфемы «уни-» и «код».
По-моему, фраза не совсем корректна: с пуристической точки зрения предпочтительнее использовать «равнознак» или «равнокод». Да я и не уверен, что стоит строить фразу таким образом: «с пуристической точки зрения предпочтительнее…» LoKi 23:12, 14 декабря 2005 (UTC)

«Unicode» — международный термин, никак не привязанный к английскому языку
Эта фраза также вызывает сомнение. «Unicode», безусловно, произошёл именно от английских слов и в английском языке. А то, что сейчас это слово используется повсеместно, не имеет значения: мы ведь рассматриваем именно генезис слова. LoKi 23:12, 14 декабря 2005 (UTC)

Вообще-то, хоть слово возникло в английском, но от заимствованных из латыни слов.—Nxx 10:51, 18 января 2006 (UTC)

Участники забыли о процесах стандартизации языка, поэтому будут писать «уникод».

[править] UCS-2 и UCS-4

В статью надо бы внести понятия UCS-2 и UCS-4. Кратко сказано, что когда-то было 16 бит, но нужны формулировки.

Кстати, в Microsoft OS-ах действительно UTF-16 или только UCS-2? Понимает ли винда символы выше 0xFFFF? —Maxim Razin 23:50, 4 Янв 2005 (UTC)

Начиная с Windows 2000 у них везде UTF-16, а до этого было UCS-2. — Monedula 03:38, 5 Янв 2005 (UTC)
Действительно было бы неплохо написать, что такое UCS-2/UCS-4 и чем они отличаются от UTF-16/UTF-32, дабы такие как я не продолжали пребывать в уверении, что это одно и то же :) SiMM 10:22, 24 июн 2005 (UTC)
Кстати, не совсем так, разница очень небольшая но есть. В ядре WCHAR (т.е. это ближе к UCS-2) (кэш, если сервер лежит) так и остается, а уже сверху, на уровне Uniscribe, сделана работа с суррогатами. drdaeman 07:50, 25 сентября 2006 (UTC)

Коллеги, ну так:

старший байт (MSB) может записываться либо перед младшим (UTF-16 Big Endian, от big end-ian* — большим концом), либо после младшего (UTF-16 Little Endian, от little end-ian* — малым концом).

по русски уже не пишут. Двусмысленность какая-то!

Вданном контексте нельзя говорить о «большом» или «малом», так my big brother переводится как «мой старший брат», а не «мой большой брат». Я - за «старшее окончание» / «младшее окончание». --AlefZet 08:01, 2 августа 2006 (UTC)
Не понимаю, в чём двусмысленность? CodeMonk 13:34, 13 августа 2005 (UTC)
Двусмысленность в слове «конец». Конечно, каждый всё понимает в меру своей испорченности, но, чтобы устранить двусмысленность совсем, предлагаю заменить «конец» на «окончание». То есть, например, писать «с большим окончанием». LoKi 11:14, 14 декабря 2005 (UTC)
Не стоит принимать это в расчёт. —CodeMonk 20:46, 18 января 2006 (UTC)
По-моему, тоже. ;) LoKi 14:59, 19 января 2006 (UTC)

[править] Строчная или заглавная буква

Мне кажется, что «Юникод» является названием и следовательно должен писаться с заглавной буквы. Так, например, это делается на сайте Майкрософт [1]. —ajvol 07:59, 26 ноября 2005 (UTC)

Слово «уникод» действительно должно писаться с маленькой буквы как сокращение от «универсальный код». Кстати Лингво переводит «Unicode» именно как «уникод» (со строчной буквы) и даже не даёт варианта написания «Юникод». —ajvol 07:50, 8 декабря 2005 (UTC)
Lingvo ни в коем случае не должен считаться экспертом в области правописания, произношения и т. п. Хотя я глубоко уважаю и постоянно использую этот словарь, я никогда не обращаюсь к нему в спорных случаях, так как Lingvo содержит массу ошибок. LoKi 11:19, 14 декабря 2005 (UTC)
Уникод — это собственное имя технологии, согласено правилам должно писаться с большой буквы.--A.I. 12:18, 14 декабря 2005 (UTC)

[править] Юникод и программисты

Раздел очень виндоцентричный. Перенёс содержание в отдельную статью Юникод в операционных системах Microsoft, а вместо него напишу «Реализации» с упоминанием основных ОС, и сред разработки (Java как первопроходец). Maxim Razin 10:24, 11 декабря 2005 (UTC)

[править] Латинский шовинизм

Просто так, констатация. Любопытно заметить, что то, что в Юникоде (и во всех других кодах) латинские буквы кодируются одинаково, называется модным и уважаемым словом «совместимость», а аналогичное желание с русскими буквами никак не называется и никто к этому не стремится, вследствие чего мы имеем бардак с русскими кодировками. Dims 14:39, 16 декабря 2005 (UTC)

Вы кажется плохо знаете историю и принцыпы кодирования… Дело в том, что ещё давно латинские буквы (точнее американские) и спец. символы были определны в стандарте ASCII (там определялось первые 128 симоволов). И ASCII стал общепринятым стандартом, который и «держит» Unicode (там не только буквы, но и основные спец. симовлы). В том же ASCII (или другом нормативном документе) обсуждалось, что остальные 129—256 символов будут кодироваться в зависимости от языка. С русским есть огромные разнобой даже в этом — поскольку очень не много языков содержат такую неразбириху с кодировками… И какое желание может быть с русскими буквами, когда номера от 129—256 занимают так же буквы кучи других алфавитов? --A.I. 14:47, 16 декабря 2005 (UTC)
Давайте не будем начинать с обвинений. Я начинал работать ещё на ЕС-1010. БЭСМ, правда, не застал. Так вот, я, как раз, и обращаю внимание на забавный факт, что у нас, у русских, когда говоришь о латинском алфавите, они прекрасно понимают, что такое совместимость. А когда о русском, то словно отключается какая-то часть мозга. Вы разве не понимаете, что стандарт ASCII, где буква A означает American, просто-напросто наплевал на совместимость для русского алфавита? И это естественно, посколько с какой стати оны должны заботиться о нас. Непонятно, почему наши этого не понимают. Нужно было разработать свой стандарт, где коды от 0-128 отданы русским буквам, вот и всё. Dims 15:19, 16 декабря 2005 (UTC)
Ага, и разработать свои собственные операционные системы, которые бы такое насилие над аски переваривали бы, и софтику понаписать… На самопальных компиляторах, ессно. Чтоуж, Расея всегда была родиной слонов --MaxSemtalk 15:53, 16 декабря 2005 (UTC)
Почему такая парадоксальная реакция? Почему мы адекватно воспринимаем желание производить собственные продукты питания, собственные самолёты, собственные автомобили, но когда речь заходит о собственных операционных системах, то крыша едет? Ещё когда компьютеры были не так распространены, меня ещё тогда удивляло, почему какая-нибудь версия Юникс или дажа совершенно своя операционная система, которая ни с чем не совместима — и та писалась с использованием английского языка и кодировок? Dims 08:19, 17 декабря 2005 (UTC)
См. КОИ-7. Там русские буквы расположены как раз так, как Вам хочется (в диапазоне 0-128). Жаль только, что никто его не использует (по вполне понятным причинам). — Monedula 18:49, 16 декабря 2005 (UTC)
Конечно по понятным — лежащим в области психологии. Каждый раз, когда американцы собирались, чтобы придумать новую кодировку, они аккуратно заботились о совместимости, о сохранении инвестиций. Каждый раз, когда собирались мы, мы рушили всё до основания и переделывали всё с нуля. Видимо, из страха оказаться «родиной слонов». Dims 08:19, 17 декабря 2005 (UTC)
Те же американцы не побоялись отказаться от EBCDIC или, скажем, кода Бодо. Maxim Razin 08:26, 17 декабря 2005 (UTC)
См. для примера en:Polish codepages. Тот же бардак (к счастью, распространяющийся только на часть польских букв — те, которые с диакритикой). — Monedula 15:02, 16 декабря 2005 (UTC)

[править] О целостности

В обсуждении были баталии — как назвать статью: по-русски, еще раз по-русски или по-английски… А в статье черным по белому наспиано:

"На сайте консорциума есть специальная страница(…). Для русской кириллицы указан вариант «Юникод».
«В Википедии используется наиболее широко распространённый вариант».
— То есть «Юникод»

Сказали — официально используется «Юникод» — так надо его и использовать…

С уважением Колесников П. А. 12:03, 16 июня 2006 (UTC)

Хм. Забавно. А Вам не кажется, Колесников П. А., что Ваша реплика сама очень напоминает то, что Вы так раскритиковали? LoKi 12:10, 16 июня 2006 (UTC)
Прошу прощения за столь «горячую» реакцию. Просто очень зацепило. Спасибо за исправления в ссылках — я как-то и не догадался посмотреть туда. Еще раз прошу извинить за троллинг. А изменения в тексте У->Ю, кроме ссылок естественно, сделал я, только еще не зарегристрировавшийся, поэтому и возмутился.... Колесников П.А. 19:39, 16 июня 2006 (UTC)
Нет проблем. :)

[править] Мои правки 2006-08-01 (UTF-8)

  1. Нет смысла в этой статье расписывать все тонкости латинского алфавита (про J, W и т. п.).
  2. Западноевропейские буквы с диакритиками в UTF-8 изображаются двумя байтами, тут была явная ошибка.
Да, тут я спутал юникод как таковой с представлением в UTF-8.--AlefZet 07:44, 2 августа 2006 (UTC)
  1. UTF-8 не может быть «переходным (от ASCII к Юникоду) форматом», потому что он и есть Юникод, и никуда от него переходить не надо. — Monedula 09:06, 1 августа 2006 (UTC)
Пункт 3 я написал и готов здесь поспорить. UTF-8 это не чистый Юникод, это переходный гибридный формат, который призван обеспечить обратную совместимость между Юникодом и ASCII. --CodeMonk 23:59, 1 августа 2006 (UTC)
Переходным, простите, куда? (в смысле, к какому представлению?) Представление UTF-8 обеспечивает все возможности Юникода (в отличие, например, от древнего UCS-2). Ну а совместимость - это приятное дополнение. Maxim Razin 00:31, 2 августа 2006 (UTC)
Переходный от ASCII к Юникоду. --CodeMonk 21:14, 2 августа 2006 (UTC)
Тут дело в том, что поначалу Юникод представлялся как фиксированная 16-битная кодировка (отсюда и традиция обозначения символов 4-разрядными 16-ричными числами, типа U+0443). В настоящее же время принято, что символы Юникода кодируются абстрактными целыми числами, которые в компьютере можно представлять множеством разных способов. Поэтому сейчас нет никаких причин считать UTF-8 не чистым Юникодом. — Monedula 05:53, 2 августа 2006 (UTC)
А тут вы неправы. Во-первых исторически Юникод был предложен именно в 32 битной последовательности компанией Microsoft. Под давлением Adobe и других шрифтостроителей была избрана 16 битная последовательность. Во-вторых не надо путать стандарт с его представлением. Выражение «переходным (от ASCII к Юникоду) форматом», конечно же неудачное, поскольку об ASCII можно говорить только про вымирающий формат UTF-7. И ещё: слово «переходный» в русском языке предполагает вре́менность, м.б. лучше «транзитный» или «промежуточный»? --AlefZet 07:44, 2 августа 2006 (UTC)
Я не против «промежуточный», хотя не вижу особого отличия от «переходный». --CodeMonk 21:14, 2 августа 2006 (UTC)
Прежде всего, UTF-8 не чистый Юникод, потому что в нём неправильно (не в формате Юникод, а фактически в формате ASCII) кодируются символы английского алфавита. --CodeMonk 21:14, 2 августа 2006 (UTC)
Как это «неправильно»? А как же кодировать «правильно»? Ещё раз объясняю: в настоящее время Юникодовский номер — это просто абстрактное число (не двоичное, не десятичное, не шестнадцатеричное, не 16-битное, не 32-битное и т. п.) Это число в компьютере можно кодировать как угодно, его сущность от этого никак не меняется. Более того, сейчас даже традиционные 8-битные кодировки (типа KOI-8) превратились в форму представления Юникода, поскольку они определяются таблицей соответствия между этой кодировкой и Юникодом. — Monedula 06:07, 3 августа 2006 (UTC)
Ну сейчас и старые версии HTML считают подмножеством XHTML, но от этого они не становятся «чистым» и «правильным» XHTML. Следуя этой логике можно считать и ASCII частью Юникода, и KOI-8, и это формально будет правдой, но ни ASCII ни KOI-8 от этого в Юникод не превратятся. --CodeMonk 20:26, 3 августа 2006 (UTC)
Так я и не понял, что же Вы считаете Юникодом? UTF-16 и UTF-32 ведь тоже не являются Юникодом — это только способ его представления. (А HTML, кстати, не является подмножеством XHTML.) — Monedula 06:18, 4 августа 2006 (UTC)
«Чистым» Юникодом я считаю 32-битное кодирование символов, как это обозначено в чартах Юникода. (Рад, что вы не считаете HTML вариантом XHTML.)--CodeMonk 20:57, 4 августа 2006 (UTC)
В чартах Юникода про 32-битное кодирование ничего не сказано. Там просто шестнадцатеричные числа. — Monedula 19:21, 5 августа 2006 (UTC)
Вы шутите? В чартах написаны 32-битные коды каждого символа. Например, для ℉ это 2109, что и отобразится, если в HTML написать &#x2109;. Вот именно это и есть код, это не просто шестнадцатеричные числа. --CodeMonk 21:03, 6 августа 2006 (UTC)
Вы обсчитались. 0x2109 — это 16 бит, а не 32. А в HTML можно записать и в десятичном коде &#8457; — это никак не изменит сущность записанного символа. — Monedula 05:28, 7 августа 2006 (UTC)
Нет, я не обсчитался, в чартах указаны именно 32-битные коды. И 0x2109 это код, который занимает в памяти 32 бита и обозначается во внтуреннем программном представлении как int32. В данном случае не важно, что число может реально занимать меньше 32 бит (в нашем случае только 14 бит, 0x2109 = 8457 < 214 = 16384), код всё равно будет занимать в памяти 32 бита. Это сделано для возможностей будущего расширения чартов Юникода, когда появятся символы с более крупными кодами. --CodeMonk 19:12, 8 августа 2006 (UTC)
Какая-такая «память»? У Юникода нет никакой «памяти», и про int32 в стандарте ничего не сказано. А чарты Юникода никто расширять и не собирается. Для кодов установлен предел 0x10FFFF, поэтому 21 бита будет всегда достаточно. Если кто-то использует для хранения кодов 32-битные (или 36-битные) поля — это его проблемы. — Monedula 06:16, 9 августа 2006 (UTC)
Какие проблемы? UTF-32 предполагает именно 32-битные коды. И именно они указаны в чартах Юникода. Про int32: я говорю про реализацию поддержки Юникода внутри программ. У всех крупных производителей поле реализовано как int32. Да никто и не будет реализовывать это как 21-битную или 24-битную величину, поскольку это не рационально с точки зрения современных 32-битных и будущих 64-битных микропроцессоров. Поэтому 21-битного кода не будет. --CodeMonk 00:15, 10 августа 2006 (UTC)
UTF-32 — это лишь один из способов изображения символов Юникода в компьютере. Внутри программ он может быть удобнее других. Но при записи в файл он очень неудобен из-за: (1) громоздкости (2) зависимости от порядка байтов (3) несовместимости с файлами ASCII. Поэтому-то стандарт Юникода и не предписывает UTF-32 в качестве «самого правильного». — Monedula 06:32, 10 августа 2006 (UTC)
Я понимаю, что кодировка UTF-32 длиннее UTF-8, но чистым Юникодом я считаю именно её. Аргументы я уже приводил. Я уже устал спорить по этому поводу. --CodeMonk 22:06, 10 августа 2006 (UTC)
Да, спор подзатянулся. В целом у нас расхождение в том, что Вы считаете «чистым Юникодом» UTF-32, а я считаю, что «чистый Юникод» существует лишь в воображении, а в компьютере есть только разные его реализации. — Monedula 06:28, 11 августа 2006 (UTC)
Вообще, судя по всему, UTF-8 становится окончательным всеобщим стандартом для файлов plain text, а UTF-32 вряд ли когда-нибудь будет использоваться кроме как во внутреннем представлении в программах. Так что называть UTF-8 «переходным» или «временным» не сто́ит. — Monedula 05:28, 7 августа 2006 (UTC)
Да, я вижу, что UTF-8 становится самостоятельным стандартом, взять хотя бы кодировку нашей Википедии. Не знаю во что это выльется. Надеюсь, что это временное явление, которое пройдёт вместе с отмиранием ASCII. --CodeMonk 19:12, 8 августа 2006 (UTC)
Но почему же «временное»? UTF-8 всех устраивает, зачем от него отказываться? — Monedula 06:16, 9 августа 2006 (UTC)
Если какой-либо производитель захочет, наконец, создать т. н. «legacy-free» систему без поддержки ASCII, то пропадёт надобность и в англоцентричной кодировке UTF-8. Ведь ASCII используется всё меньше. В той же Windows XP использование ASCII уже сокращено до минимума. --CodeMonk 00:15, 10 августа 2006 (UTC)
Пусть UTF-8 и англоцентричная, зато она самая удобная, поэтому никто от UTF-8 просто так не откажется. А исходные тексты программ, по-видимому, всегда будут писаться в ASCII, тут уж ничего не поделаешь. — Monedula 06:32, 10 августа 2006 (UTC)
Тексты программ пишутся в специальных текстовых редакторах, и эти редакторы, по крайней мере у известных производителей, уже давно отходят от использования ASCII. Да иначе и нельзя: как бы иначе в тексте программ задавались строковые константы на других языках? Никак. А это в современных программах часто бывает необходимо. --CodeMonk 22:06, 10 августа 2006 (UTC)
А вот тут-то и приходит на помощь UTF-8: основная часть программы как была, так и остаётся в ASCII, а где нужны национальные символы (в комментариях или ещё где) — ставятся байты UTF-8. — Monedula 06:28, 11 августа 2006 (UTC)
Хорошо. Я устал спорить. Давайте откажемся от слова «переходный», я думаю, в статье и так достаточно сказано о совместимости с ASCII. --CodeMonk 21:18, 11 августа 2006 (UTC)
Пожалуй, пора разделы о конкретных реализациях/представлениях UTF-8 и др. вынести из основной статьи, поскольку к непосредственно Юникоду не имеют отношения. --AlefZet 07:50, 2 августа 2006 (UTC) ℉

[править] Сей мир полон хреновени

Какие только бредни не прочтёш в Вике: вечность допотопного ASCII, связь с микропроцесором кодировки (интересно, когда изменится архитектрура ВС, что произойдёт?). Я охреневаю потихоньку/тихо, шифером шурша, едет крыша, не спеша... 65.54.154.13
ASCII будет жить, пока живы UNIX и C. — Monedula 06:28, 11 августа 2006 (UTC)
  • Благодарю за разъяснение. 65.54.154.17
Если когда-нибудь появятся, скажем, 20-битные процессоры (хотя это очень наврядли), то могут появиться и 20-битные переменные под 5/10/20-битные регистры такого процессора. А пока стандартные переменные, включая кодировки символов, кратны 8 битам (1 байту), поскольку элементарный раздел регистра микропроцессора, к которому можно обратиться, это 8 бит. Это удобно. --CodeMonk 20:52, 11 августа 2006 (UTC)
  • Вы не въезжаете. Офтоп. Почему Вы ограничились 64-битовым (в предыдущей секции) м-процем (микропроцесор), а не 1К (1024)-м? Конец_офтопа. Я имел ввиду вообще отказ от текущей архитектуры. Не будет она существовать вечно. Что произойдёт с кодировкой? У каждого своя религия: для Монедулы — это допотопные Юникс и Си, для Вас — текущая разрядность м-проца. Поэтому столь удручающ Ваш диалог. 65.54.98.27 21:15, 11 августа 2006 (UTC)
Что произойдёт с кодировкой, спрашиваете? А вот что: первые 128 позиций как совпадали с ASCII, так и будут совпадать. — Monedula 06:12, 14 августа 2006 (UTC)

[править] Об «уникоде»

Я прошу прощения, что вмешиваюсь в ваши беседы о названиях. Я хотел бы только высказать точку зрения одного лингвиста. Свою. :)

Было мнение о том, что кем-то там в консорциуме предписано, что по-русски правильно «Юникод», значит нужно так писать и говорить. Все это глупости, не стоящие выеденного яйца. Мы уже проходили, когда из заграницы нам предписывали, что и как по-русски правильно говорить и писать, напр., из Эстонии, — что правильно Таллинн, а не Таллин, с Украины, — что нужно «в Украине», а не «на Украине», из Молдавии, — что правильно «Молдова», а не «Молдавия» и т. д. и т. п. Конечно, слово Unicode не настолько в русском языке прижилось, как, например, «Молдавия», но сути дела это не меняет. Например, фирма Unitas «Единство» (лат.) делала унитазы, у нас в слове «унитас» быстро распознали конец -таз (который, как вы понимаете, никакого отношения к латинскому суффиксу -tas не имеет), и стали так писать и говорить (род. п. «унитаза» и т. д.), ничего, никто не умер, но зато появилось новое уникальное слово в русском языке. Язык обогатился. А обогатился бы он, если бы до сих пор писали бы в кавычках название фирмы: «Купил себе новый „Унитас“»? То же самое с патефонами и ксероксами. В слове Unicode, наверное, только слепой не увидит двух привычных уже частей: уни- и -код, которые, ко всему прочему, и замечательно расшифровываются и на русской почве: универсальная кодировка. Форма «юникод» встречается чаще в Яндексе по одной простой причине: большинство пишущих в интернете из иностранных языков знают только английский, часто хреново, при этом умуюдряются так же хреново знать русский, но все равно на нем пишут, отсюда и тупое переписывание английских названий в русском тексте (что пишут русскими буквами «Юникод» — это даже прогресс, а то без обиняков — латинскими). Давление англоязычного интернета на мозги наших «писателей» иногда вообще доходит до абсурда: на одном спортивном сайте имя болгарского спортсмена было дано в английской транскрипции (!).

Я согласен с теми, кто говорил, что форма «юникод» вымрет. Такие слова-уродцы появляются поначалу, когда слово еще новое и не обжилось в языке, но потом все возвращается к нормальному состоянию. Думаю, что этот случай не станет исключением.

Это все, конечно, ИМХО.

[Кстати, слово «интернет» тоже сначала не склонялось, и тоже спорили. Прошло. ;)]

Я прошу прощения. По неумелости стер предыдущее сообщение. Теперь восстановил.

  • Добавлю мысль, которую хотел написать сначала, но забыл. :) Форма «юникод» в названии организации «Юникод Консорциум» вполне уместна, но сам стандарт, который фактически перестал быть собственным именем, я называю «уникод», чего и всем желаю. :)
Просто Вики не должна идти в первой в словоупотреблении, вот когда будут чаще писать и говорить, «Уни», тогда и статью можно будет переименовывать. --ajvol 06:34, 29 августа 2006 (UTC)

[править] Шаблон Юникод

Есть ли шаблон, предупреждающий о том, что некоторые символы могут отображаться некорректно, как в других википедиях? Grenadine 17:00, 29 октября 2006 (UTC)

 

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu