New Immissions/Updates:
boundless - educate - edutalab - empatico - es-ebooks - es16 - fr16 - fsfiles - hesperian - solidaria - wikipediaforschools
- wikipediaforschoolses - wikipediaforschoolsfr - wikipediaforschoolspt - worldmap -

See also: Liber Liber - Libro Parlato - Liber Musica  - Manuzio -  Liber Liber ISO Files - Alphabetical Order - Multivolume ZIP Complete Archive - PDF Files - OGG Music Files -

PROJECT GUTENBERG HTML: Volume I - Volume II - Volume III - Volume IV - Volume V - Volume VI - Volume VII - Volume VIII - Volume IX

Ascolta ""Volevo solo fare un audiolibro"" su Spreaker.
CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
Wikipedia talk:中文繁简体对照表 - Wikipedia

Wikipedia talk:中文繁简体对照表

维基百科,自由的百科全书

注意:此网页已不再维护。有关不同词语的转换错误,请到Wikipedia:繁简体转换请求进行讨论。其他讨论请到Wikipedia talk:繁简处理

目录

[编辑] 哇,現在演化成這個樣子了

哇,現在演化成這個樣子需要分類了,難得我已經收集了基礎用字約 1953 個了,該怎麼辦呢?我先貼上去好了。

[编辑] 在台灣是沒有人懂漢語拼音的

err... 有些字重複了。另外,事實上在台灣是沒有人懂漢語拼音的,似乎用漢語拼音的方式來分類,會造成某些想找對照的人摸不著頭腦。或許該找另一個方式來分類會比較好。 --Rickz 07:10 2004年4月11日 (UTC)

[编辑] 用不著分類呀

可是,依繁簡轉換程式來看,用不著分類呀,重點是把對應關係找出來,然後將使用者 POST 出去的資料轉換,這樣就可以了,我舉個例子來說好了。

例子:假設使用者的送出資料之後,儲存使用者送出的資料的變數名稱叫做 $data,那麼這時候為了同時要儲存兩種版本的頁面,要先複製變數,令 $data_2 = $data。 接著,我們使 $data 為簡體版本,$data2 為繁體版本,利用我們蒐集到的繁簡中文對照,將 $data 中的所有可能出現的繁體字轉換為簡體字;likewise,將 $data2 中的所有可能出現的簡體字轉換為繁體字,最後在同時儲存,這樣就可以啦。

但是如果是要另外做資料或文化用途的話,分類當然是必要的啦(不管是怎麼樣的分類),而且相當必要。Dowba 11:55 2004年4月11日 (UTC)

[编辑] 为什么要分类及我的一些设想

首先说说我为什么要分类:因为我意识到繁简转换是一个复杂的问题,虽然大部分繁简体字之间确实可以一一对映,但也有相当数量的繁简体字之间不是简单的一一对映,所以我想作一个细致的调查。下面先举几个例子说明繁简转换的复杂。

就拿“台湾”的“台”字举例来说,简体的“台”字对应着繁体“臺”、“檯”和“颱”,如果“台湾”一词在台湾确实是写作“台灣”而非“臺灣”的话,那么简体的“台”字对应着四个繁体字“台”、“臺”、“檯”和“颱”。另一方面,一个繁体字也可能映射为多个简体字,具体取决于这个字的含义,比如“乾、乹、亁”这三个字,作“乾坤”的“乾”讲时,被简化为“乾”,但作“乾湿”的“乾”字讲时被简化为“干”字。而“干”字本来在繁体中还有它自己的意思,如“干预”,这样的话,简化的“干”字映射为繁体字时也是一对多的,它既可以映射为“乾”字,还可以保持不变为“干”字。

从上面的例子我们可以看到,我们必须整理细分到同一个字的不同含义,才能正确转换繁简。同时,还有异体字的问题,比如“乹、亁”三个是“乾”的异体字。所有这些,都需要一个细致的调查。然后,我们还有对每一个字给出它们的unicode编码和utf-8编码。

对于我们分类的方案,我觉得是可以讨论的。如果不采用汉语拼音,那么还可以采用部首检字法。用部首检字法还有一个好处,就是Unicode编码本身是采用部首检字法来给字集排序的。

这里有一个难点,就是让计算机确定一个字在某个上下文的具体含义,这是非常困难的,但也是高质量繁简转换所必须的。我想我们可以建立一个词典,用最大匹配法匹配出一个词(这种技术在大陆叫做“分词”),然后再在词的基础上作繁简转化。比如简体的“台”字化为繁体时大概按下面的方式进行:通过分词确定出“台”字所在的词,如果是“台州”就转化为“台州”,如果是“台榭”就转化为“臺榭”,如果是“梳妆台”就转化为“梳妝檯”,如果是“台风”就转化为“颱風”,如果是“台湾”就转化为“台灣”,等等。这个方案不能保证完全正确,但我想足以应付大多数情况。

我设想期望中的程序(程式)应该具备下述特点:

  • 应该可以进行繁->简和简->繁的双重转换
  • 必须注意到这样的情况:
    • 在简体版本中,我们偶然但必须引用一个字的繁体,比如在维基字典中介绍“台”时,必须说明它是“臺”、“檯”和“颱”的简化。
    • 在繁体版本中,我们偶然但必须引用一个字的简体,比如在维基字典中介绍“臺”时,必须说明它的简体字是“台”。
    • 针对两种上面的情况,我们必须提供手段,表明一个字不作繁简转换。我建议采用C语言中常用的手段,加一个反斜线。比如:用“\颱”表明“颱”字不作简化,或者“\台”表明“台”字不作繁化。
  • 某些上下文(不论是简体还是繁体版本)中,我们很难让计算机判断出某字的具体含义,我们不得不手工指明如何繁简转换。我建议采用两道反斜线的方法。比如“\\台臺”说明一个字在简体版用“台”,在繁体版用“臺”。
  • 程序(程式)不用PHP写,而是用C编程语言写成,然后再在PHP脚本中用dl引入C的库函数。这样可以提高繁简转换的效率。
  • 繁简转换需要的词典放在MediaWiki名空间维护。在服务器(伺服器)启动的时候由PHP读入词典,然后生成繁简转换的运行时环境(Runtime environment),再在此基础上进行繁简转换。
  • 词典更新后,不用重启服务器(伺服器),运行时结构可以得到自动更新。

--Mountain(Talk) 20:03 2004年4月11日 (UTC)

嗯,這樣一來勢必得花更大的工夫,我們有功力如此深厚的的 program designer 嗎? 61.219.126.137 06:10 2004年4月12日 (UTC) (Dowba)


[编辑] 我觉得应该把词语作为转换的单位

单个字当然是要转换的,否则有些人看不懂,台湾的人应该看不大懂简体中文对吧? 然而,台湾和大陆的许多词语也都是不一样的,不是把字转为简体(繁体)大家就看得懂。比如,就计算机的某些词汇 硬盘(硬碟) 打印机(印表機) 程序(程式) 等等,在转换的同时也应该一并转换,这样大家才看得舒畅啊。


[编辑] 關於用字排列的建議

目前的用字還沒排序,如果用漢語拼音,臺灣一票人不懂,用注音或通用拼音,大陸、星馬也看不懂。建議可以參考台灣人列表的方式,由於注音為37個,而漢語有26個,因此以注音為底,漢語搭配的方式,應該可以解決排字問題。(用筆畫方式,由於簡繁字體筆畫筆順不同,可能引起更大困惑)

又如果不知道該字發音,讀者將該字剪下,直接貼上瀏覽器的搜尋功能即可。 218.172.203.67 14:35 2004年5月27日 (UTC)封印

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu