中文信息处理

维基百科，自由的百科全书

本條目或章節的中立性有争议。內容、語調可能帶有明顯的個人觀點或地方色彩。
加上此模板的編輯者需在討論頁說明本文中立性有爭議的原因，以便讓各編輯者討論和改善。
在編輯之前請務必察看讨论页。

本文需要您的关注
請在進一步修改后，从需要关注的页面的列表中删去相关提示，并删除这个模板。

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支，是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用，从1980年代开始，中文信息处理进入了快速发展阶段，并极大地提高了中文社会的信息处理效率。

中文信息处理分为汉字信息处理与汉语信息处理两部分，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

中文信息处理的文字。不仅包括简体汉字、繁体汉字，也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字，还包括古汉语文字等。

[编辑] 研究内容

基础研究：汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等
输入技术：中文输入法、中文手写输入、中文语音输入、文字识别等
输出技术：汉字字模技术（字型库）、汉字激光照排、汉语语音合成等
存储技术：汉字库标准等
转换技术：繁简转换等
信息处理：中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面等

[编辑] 发展过程及失误

中文信息处理至今经历了两次高潮：1980年代中期到1990年代中期之前，核心内容是汉字的计算机处理问题；经过几年的发展低潮之后，1990年代末，中文信息处理的重点转向语音识别、语音合成和语义处理方面。

[编辑] 汉字之难——被打字机抛弃的时代

在二十世纪上半叶，英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性，使中文打字机迟迟未能设计出来，再加之基础汉字的学习难度大、时间长，连鲁迅都喊出“汉字不灭，中国必亡”。之后，虽然设计出中文打字机，但要配备数千个铅字组成的大字盘，昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。毛泽东对此也深感无奈，发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论，在中文信息处理技术发展后期仍然被经常(断章取义的)提及。

1984年的《参考消息》有这样的记载：“法新社洛杉矶 8月5日电新华社派了22名记者，4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中，只有中国人用手写他们的报道”……此时只有中国人仍然用手写从事着创作。

汉字成了被打字机抛弃的“落后文明”，直到二十世纪八十年代PC技术推广下，中文PC系统问世，中文信息输入的问题，才有了初步解决。

[编辑] 汉字的拉丁化问题

[编辑] 汉字信息处理阶段

硬件：联想、巨人、四通等公司的汉卡，浪潮、紫金的中文电脑，四通中文打字机，大洋字幕机软件：输入法: 企业：联想、方正、四通等一批靠中文处理产品起家的企业。标准、基础研究：中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪院士说，到2000年，中国已制定了70个与中文信息处理相关的国家标准。（学术理论：） 1990年代中期，最为普及的计算机操作系统由DOS升级到Windows平台。微软公司从中文版Windows 3.2开始，在操作系统里集成了汉字处理技术，使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷，原先做中文信息处理的公司纷纷转行。Windows 2000及以上版本，无论采用何种文字，均已支持中文处理。

中文电脑、中文编程语言、中文軟體

[编辑] 互联网时代的中文处理

互联网时代对中文信息处理产生了新需求。互联网上的海量数据为中文信息检索提出了新的课题；其次，外文信息已经多到不能人工完翻译的程度，机器翻译的重要性被提到了空前的高度；第三，手机、PDA等移动设备将信息处理需求变成无处不在，非标准键盘的汉字输入需要有新的方案。大量新的课题出现，重新启动了中文信息工作的热情。

[编辑] 汉语信息处理阶段

数字图书馆

與此同時，為方便使國內各民族電腦化的步伐加快，政府作出一連串行動去使這些民族的語言更便於“計算機化”。這一連串行動包括以下各項：

取消民族語言中的特殊字元，盡可能以26個標準拉丁字母代替。(參看：壯語)
為還未有文字的民族設立以拉丁字母為本的新文字。

台灣方面，在1990年代曾引發“中文電腦化”及“電腦中文化”的爭議。
- 資策會方面的意見：認為電腦的操作空間有限。如果不讓中文適應電腦環境，中文就會失去新時代的活動能力而變成死的語言。
- 學界及業界的意見：操作空間有限的只是短時期的問題。隨着電腦發展日新月異，操作空間的限制很快就變得沒有意義。政府應該在新時代來臨以前，及早制定長遠的標準。
- 結果：資策會未能在ISO 10646開始討論中日韓文字編碼空間之前產生一個前瞻性的編碼方案，加上當時中國大陸政府的阻撓，使繁體字幾乎要在電腦世界消失。後來幸得多方面商討和配合，同意中日韓三國共用編碼空間，成為了今時今日的中日韓統一表意文字，而台灣的一萬三千多個字亦准以“民間通用標準”為理由成為了統漢碼的參考標準之一。電腦對漢字的親和性增加，而Unicode在統漢碼之後，亦不斷推出擴展A、擴展B及擴展C計劃，以涵蓋歷史上所有曾經出現過及使用過的漢字，並為它們編碼記錄。現時已整理好接近七萬個漢字。

[编辑] 相关学科

语言文字学、计算机科学、模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、声学等

[编辑] 研究机构

（缺）

[编辑] 参考文献

（缺）

[编辑] 外部链接

中文信息处理研究中心
MonkeyKingSoft.com - 使用电脑软件进行汉字信息统计（部首、拼音、笔画、笔顺）。

来自“http://zh.wikipedia.org../../../%E4%B8%AD/%E6%96%87/%E4%BF%A1/%E4%B8%AD%E6%96%87%E4%BF%A1%E6%81%AF%E5%A4%84%E7%90%86.html”

页面分类: 中立性有争议的作品 | 需要关注的页面 | 中文信息处理