自然语言处理
维基百科,自由的百科全书
自然語言處理(Natural Language Processing簡稱NLP) 是人工智慧和語言學領域的分支學科。在這此領域中探討如何處理及運用自然語言;自然語言認知則是指讓電腦「懂」人類的語言。
目录 |
[编辑] 自然語言處理
早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。
由於理解(understanding)自然語言需要關於外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知同時也被視為一個人工智慧完備(AI-complete)的問題。同時,在自然語言處理中,"理解"的定義也變成一個主要的問題。
[编辑] 自然語言處理的主要範疇
- 文本朗讀([Text to speech)/語音合成(Speech synthesis)
- 語音識別(Speech recognition)
- 自然語言生成(Natural language generation)
- 機器翻譯(Machine translation)
- 問答系統(Question answering)
- 資訊檢索(Information retrieval)
- 信息抽取(Information extraction)
- 文字校對(Text-proofing)
- 翻譯技術(Translation technology)
- 自動摘要(Automatic summarization)
[编辑] 自然語言處理研究的難點
- 單詞的邊界界定
- 在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。
- 詞義的消歧
- 許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。
- 有瑕疵的或不規範的輸入
- 例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字元識別(OCR)的錯誤。
- 语言行为与计划
- 句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。
[编辑] 統計自然語言處理
統計自然語言處理運用了推測學、機率、統計的方法來解決上述,尤其是針對容易高度模糊的長串句子,當套用實際文法進行分析產生出成千上萬筆可能性時所引發之難題。處理這些高度模糊句子所採用消歧的方法通常運用到語料庫以及馬可夫模型(Markov models)。統計自然語言處理的技術主要由同樣自人工智慧下與學習行為相關的子領域:機器學習及資料採掘所演進而成。
[编辑] 請參考
- 科幻小說中的 Universal translator(萬能翻譯機)
- 電腦科學課程列表
- 電腦語言學
- controlled natural language
- 資訊檢索
- 自然語言理解
- latent semantic indexing
- 語言資訊處理學
[编辑] 相關鏈結
- 人類語言技術當前發展情況概覽
- Johns-Hopkins 大學的自然語言處理研究小組
- 斯坦福大學自然語言處理研究小組
- 中文自然語言處理開放平臺
- ACL(美國電腦語言學協會)提供的相關雜誌以及研討會的論文
- 哈尔滨工业大学信息检索实验室(研究中文自然语言处理)