機械翻訳
出典: フリー百科事典『ウィキペディア(Wikipedia)』
機械翻訳(きかいほんやく)とは、ある自然言語を別の自然言語へ機械的に変換する技術をいう。 例として、英語の文章を入力するとそれを翻訳した日本語の文章を出力する英和翻訳ソフトウエアなどがある。自動翻訳ともいう。
目次 |
[編集] 機械翻訳の原理
現在広く使われている機械翻訳の原理は次のとおりである。 言語 X で書かれている文を言語 Y に翻訳する場合:
例として、英語から日本語への翻訳を考える。 以下のような原文が与えられたとしよう。
"I have a pen."
この文を解析して得られる構文木は次のようになる:
ここで、以下のような辞書を使って英語の単語を日本語の単語に置き換える:
英語 | 日本語 |
---|---|
I | 私 |
have | 持っている |
a | - (空白) |
pen | ペン |
構文木は次のようになる:
(S (NP (pron 私)) (VP (verb 持っている) (NP (det -) (noun ペン))))
しかしまだ語順が正しくないし、助詞もない。 ここで構文木に対して以下のような規則を適用して変換をおこなう:
- "S → NP VP" というノードがあれば、それを "S → NP は VP" に変換せよ。
- "VP → verb NP" というノードがあれば、それを "VP → NP を verb" に変換せよ。
すると変換された木はこのようになっている:
(S (NP (pron 私)) は (VP (NP (det -) (noun ペン)) を (verb 持っている)))
ここから、以下のような翻訳文を生成できる:
"私はペンを持っている。"
これは非常に単純な例である。 実際には英語の have は複数の語義をもつので、語義の曖昧性解消をしなければ単純に「have → 持っている」という変換をすることはできない。 また、モダリティの考慮や、照応の解決、敬語の扱い、自然な言いまわしの文の生成など実用的な翻訳ソフトウエアをつくるためには多くのことを考慮に入れる必要がある。
[編集] 統計翻訳の原理
計算機の発達によって1990年代以降研究が盛んになっているのは統計的な手法を用いた機械翻訳である。これは音声認識の分野で用いられていた雑音チャネルモデルを応用したもので、元言語 f から目的言語 e に翻訳する過程を、元言語の文が雑音によって目的言語に変わってしまったと捉え、以下のように表す。
e^{^} = argmax_{e} P(e|f)
ベイズの法則によって書き直すと
argmax_{e} P(e|f) = argmax_{e} \frac{P(e)P(f|e)}{P(f)} = argmax_{e} P(e)P(f|e)
よって
e^{^} = argmax_{e} P(e)P(f|e)
ここで P(e) は言語モデル、P(f|e) は翻訳モデルと呼ばれる。翻訳モデルによって生成された目的言語の文には、目的言語においては正しくない文が含まれている可能性があるので、言語モデルによって目的言語で正しくない文を取り除くわけである。この最適な e を求めることがすなわち元言語 f から翻訳された文を求めることに相当し、その操作を行うものがデコーダと呼ばれる。
実際にはパラレルコーパスと呼ばれる文同士の対応がついた2言語間のコーパスを用いてこの確率を推定することになる。
[編集] 自動翻訳と翻訳支援
いわゆる機械翻訳は、「自動翻訳」と「翻訳支援」の2つのまったく異なる方向で用いられる。自動翻訳では、人間の介入は最小限であり、すべてを機械に翻訳させようとする。これは、「英語ができない人」のための技術である。これには技術的に大変な困難が伴い、実現への道はまだ遠い。一方、翻訳支援は、プロの翻訳者が翻訳作業を効率的かつ高品質に行うために翻訳ソフトを活用するものである。これはすでに一部の先進的な翻訳者によって活用されている。だが現状では翻訳者に高度な技能が要求され、だれでも使えるものではない。
自動翻訳と翻訳支援は、混同されていることが非常に多い。まず、この点を区別することから、機械翻訳についての正しい理解が始まる。
[編集] 翻訳ソフトの可能性
翻訳ソフトの効果的な利用法については、旧来の考えにとらわれて、誤解されていることが非常に多いのが現状である。特に初期の翻訳ソフトの開発にかかわった人々の間では、当時とはハードウェア的にもソフトウェア的にも飛躍的な進歩があるにもかかわらず、誤解が根強い。これはひとえに「翻訳ソフトをどのように使うべきか」という議論が欠如していたことによるものである。
また英語の初心者がカスタマイズを行わずにする完全自動翻訳と、翻訳者が高度な編集作業を行う翻訳支援を、混同していることが多い。「英語が苦手だから翻訳ソフトを使用する」という発想から抜け出ることができないのである。「機械に翻訳をしてもらう」か、思い通りの翻訳を「機械にさせる」のかでは、同じ「機械翻訳」でも方向性がまったく異なる。
現在のところ、機械翻訳では小説や会話などは正しく翻訳できない。翻訳ソフトの比較と称する記事などでは翻訳ソフトが苦手とする文ばかりを訳させようとするが、これは翻訳ソフトを使いこなすという視点から見るときわめて非建設的である。
特にマニュアル翻訳などにおいては構文や語彙が限定されているため、かなり高い精度が得られる。高度な英語能力、日本語能力、翻訳能力、パソコン技能を身につけた翻訳者が、翻訳ソフトの特性を正しく理解して使用した場合、翻訳作業の効率を大幅に向上することができる。ごく一部の先進的な翻訳者は、このような翻訳ソフトの可能性に気づき、積極的に利用を行っている。
最近、実務翻訳(特にコンピュータマニュアルや取扱説明書などの類似した文章が大量に含まれる文書の翻訳)においては、翻訳メモリ ツールと呼ばれる翻訳支援ツールが使用されている。翻訳者の間でもしばしば誤解されているが、翻訳メモリ ツールと翻訳ソフトは基本的な発想をまったく異にするものである。翻訳支援ツールの中に翻訳メモリ ツールと翻訳ソフトが含まれる。業務用翻訳ソフトでは翻訳メモリ ツールの機能を含むものも多い。しかし、業務用翻訳ソフトに付属する翻訳メモリ機能は、単独の翻訳メモリ ツールと比較して管理性や柔軟性で劣る。そのため、翻訳メモリ ツールと翻訳ソフトを連携させて作業するワークフローが開発されている。
[編集] 自動翻訳の実用性について
フランス語、スペイン語、イタリア語などインド・ヨーロッパ語族ロマンス語系諸語間の自動翻訳は比較的スムースであり、英語とロマンス語系あるいはゲルマン語系言語との間の自動翻訳も実用レベルに達しているといえる。日本語からの翻訳の場合、実用のレベルにあるのは日韓自動翻訳である。日本語と韓国語は膠着語であるという文法的共通性や、漢語からの借用語もあり、自動翻訳の精度は文体にもよるが普通80%~90%である。このため、日韓間では自動翻訳掲示板など実用サイトも存在する。(外部リンク、NAVER日韓自動翻訳掲示板参照)。
特定の分野の翻訳に適したユーザー辞書を作成することにより、翻訳ソフトの訳質は大幅に向上する。だが一般ユーザーの利用シナリオでは、ユーザー辞書の利用効果よりも作成にかかる時間・労力のほうが大きい。その理由には、辞書作成に技能を要する、ユーザー辞書のコンテンツがない、辞書の相互利用のためのインフラがない、翻訳の量が少ない(規模が少ない・頻度が少ない)といったことが考えられる。これらの問題を解決するために、AAMT(アジア太平洋機械翻訳協会)がユーザー辞書を共有するための仕様であるUPFを策定した。
[編集] 関連項目
[編集] 外部リンク
[編集] 翻訳ソフトの基礎知識
[編集] 代表的な翻訳ソフトウェア
- The翻訳(東芝ソリューション製)
- LogoVista LogoVista e-Trans
- ATLAS(富士通ミドルウェア製)
- 翻訳これ一本(シャープ製)
- TransLand(ブラザー工業製)
- 翻訳J・E・T j・北京 j・ソウル(高電社製)
- 電子辞書と機械翻訳
[編集] 代表的な翻訳エンジン
(翻訳サイトのいわば下請け業者的な物で、実際にはこれらの翻訳エンジンの出力結果が表示される。新たに翻訳サイトを立ち上げる時に、自ら開発をしない場合はこれらの業者からライセンスを受けることになる。)
- Amikai(Excite翻訳、Yahoo翻訳、EnjoyKorea(旧NAVER)など)
- World Lingo(Google内の翻訳など。日本語を含めたより多言語に対応している。)
- J-SERVER(高電社。英語、中国語、韓国語に対応。OCN翻訳に左記3言語翻訳を、Excite翻訳に中国語翻訳を提供している。)
[編集] 代表的な翻訳サイト
(自動翻訳のみであり、カスタマイズは一切できない)
- POP辞書.com(ブラザー工業製訳語表示)
- 自動翻訳サービス熟考(専門用語に強い英日・日英翻訳)
- Amikai
- インフォシーク マルチ翻訳 (英・和、韓・日、中・日)
- Alis Translation Solutions
- WorldLingo
- Gist-In-
- EnjoyKOREA
- 訳してねっと (英・和、中・日)
- NAVER日韓自動翻訳掲示板
- GoKorea(韓国語から日本語翻訳)
[編集] リンク集など
- 翻訳・通訳・辞書サイト検索FeelWordsSearch
- Green and White (翻訳ソフトのページ)
- 翻訳のためのインターネットリソース
- リンク集 (翻訳・辞書) (多言語と日本語の相互翻訳エンジンのポータルサイト)