中文亂碼
维基百科,自由的百科全书
中文亂碼是中文系統的一種現象,這在過去台灣未有一套統一的中文內碼標準時,情況尤其嚴重。而隨着互聯網的普及,兩岸之間或世界各地用戶交流之際,亂碼現象亦因為各方使用的內碼不同而產生相衝的現象。本文詳述過去與現在的各種和亂碼相關的問題。
[编辑] 萬碼奔騰的年代
在過去,由於繁體中文使用者缺乏一個具有號召力的內碼標準,不同使用者都會使用各自的標準。比較普遍的是銀行由於主要使用IBM的商業電腦,很自然的亦選擇了IBM5550作為其內碼標準。這些用5550內碼的文件,一但下載到微機上,若要轉寄與其他人使用,就要透過轉碼換成Big5,其他人才可以閱讀。
另一方面,在會計界有不少人都直接使用外國的專門軟體,而為免衝碼問題而使畫面凌亂,不少的IT部門都把公司電腦的內碼換成倚天碼。本來會計人員過去只是把計算結果列印而提交報告,並未有任何問題。到後來隨着電子表格的興起,用戶才發覺到當公司與外界使用的內碼不同,會引起不少問題,才開始有人正視這問題。
[编辑] UTF-8 引起的問題
隨著 UTF-8 的普及化,許多繁體中文的 IRC 頻道也逐漸從 BIG-5 轉變成 UTF-8 ;然而在這種過渡時期中,仍然有不少 IRC 頻道是採用 BIG-5 的,所以使用者參與了新的頻道時,通常會想要先確定自己的字元編碼有沒有設錯,人們最常用的測試字眼不外乎:
Jedi> 中文
或者
Jedi> 測試
很不幸地,這幾個字的字碼可能剛好會同時對應到 UTF-8 以及 BIG-5 上,所以當打出這種測試句子的人用的是 UTF-8, 而頻道上其他人用的卻是 BIG-5, 也就是所謂的「打八萬聽五筒」的情況時,其他人就會看到:
Jedi> 鎀剜
或者
Jedi> 皜祈岫