機械翻訳と翻訳ソフトの仕組み

現在使われて翻訳ソフトは開発が始まってから25年以上は経過するかなり「枯れた」ソフト技術ですが、ネット上で使える翻訳機能もその流れをくむソフトを使っていますが、他のソフトも多かれ少なかれあのレベルです。人間の翻訳と比べると程遠いものです。このソフトがあと5年や10年経過しても格別に翻訳精度が上がるとは思われません。現在の大脳生理学でも人間がどのように翻訳しているかは解明はされておりませんでの人工的に作る事はできません。現在の翻訳ソフトは以前機械翻訳と呼ばれておりましたが、人間の脳の仕組みを再現したものでなく人間ができる事をコンピュータを使い再現しているに過ぎません。

翻訳システムを人間が考える場合に翻訳はどのようにされているかを考えなくてはなりません。人間はどのようにしているかはまだはっきりと分かっておりませんが、次にような基本的なアプローチが考えられました。

置換翻訳
翻訳ソフトでも言語構造が似ているか、違うかで大きな差がでてきます。例えば日本語と韓国語は文章構造が非常に似ています。英語とフランス語などのヨーロッパ言語も構造的に非常に似ています。このような場合は単に単語を置き換えるだけでかなりレベルお高い翻訳ソフトができます。日韓、韓日のソフトは初期の段階の20年前のPCベースの翻訳ソフトでも60%から80%の翻訳が可能でした。英語と日本語は一番文法的には離れているのでこの方法は不可能です。

中間言語
中間言語とは翻訳する原文と訳文の間には意味合いを中間的に表現する概念があり翻訳をさせるときには一度中間的な言語で表現をして最終的にターゲットとなる翻訳文にすると言う考え方です。“Thank you. ” は中間言語で表現すれば“感謝の意を表現する”時に使われます。その感謝の意を表すのは“ありがとう。”であります。だからその翻訳文は“ありがとう。”になります。単語的に訳せば“あなたを感謝します。”になってしまいます。なるほど慣用句の場合には中間的に表現でるから都合が良いと思います。しかしすべてが中間的に表現できるわけでもありません。

しかし機械翻訳の歴史において中間言語は一時的には注目された時もありましたが中間言語という物は実際に概念として存在するかどうかも分からないまま終わってしまた。一部の表現の翻訳には威力を発揮する考え方ですが多くの翻訳には適用できないのが弱点です。現在市販されている中間言語を使った翻訳ソフトは存在しません。NECが中間言語を使ったピボットの翻訳ソフトを開発しましたが使ってみれば翻訳結果からみれば意味解析とはほとんどかわりませんでした。一部の翻訳に中間言語的なアルゴリズムを使っただけで多分興味を引くためのキャッチフレーズだと思っています。


意味解析
現在市販されているソフトで置換的なアプローチのできないすべての翻訳ソフトは意味解析をベースに作られています。意味解析の翻訳とは原文を文章のパーツとなる形態素に分解してそれを文法的に解析してターゲット言語の文法に則って並べ替えることです。 “Thank you. ”を意味解析をして日本語に並べ替えると“あなたに感謝します。となります。実際の文章はもっと複雑でこの意味解析とて万能ではありません。

よく引き合いにだされたのが”Time flies like an arrow.“の訳文です。もちろん”光陰矢のごとし。“が正解です。文法的には5の解があると言われています。英文を形態素に分けた場合”flies“が名詞となる場合も動詞となる場合もあります。正解は動詞ですが名詞とすれば”like“が動詞となり迷訳”時蝿矢を好む。“となります。時蝿などはいないのでないかとか、そんなことはありえないではないかと思われるかも知れませんが機械は一行しか読んでいないのです。機械(ソフト)は時蝿がいるかいないかも常識的に判断しておかしいかどうかも判断はできません。

つまり意味解析の翻訳ソフトは文法上可能性のある翻訳の解答を総て出すことができます。しかし使う側には不便この上ないのです。翻訳ソフトは最初の解答(翻訳ソフトが最初に表示する訳)どれにするかが問題となります。そこでいろいろな可能性を加重平均して一番ありえそうな訳を最初の解答として画面に表示します。もし翻訳ソフトが最初の解答で意味を取り違えても実は他の可能性のある解答はシステムの中に持つことができるのです。一部のソフトでは単語の品詞指定して再翻訳できる機能を持たせたのもあります。

翻訳ソフトは形態素の品詞を間違えるだけでなく単語の訳を間違えます。ひとつの単語には多くの意味がありどれを選ぶかが問題です。これを避けるために翻訳ソフトでは複数の辞書を使います。複数の辞書に優先順序をつけておき順次参照させます。通常のソフトではどの辞書にも無い場合はシステム本体の辞書を参照します。どれかの辞書にある場合は良いのですが辞書に無い場合はどうするのでしょうか。ピボットの場合は名詞扱いで“生だし”をしていました。つまり辞書になかった単語を文法解析には自動的に名詞扱いとして訳は英語の単語のまま訳出します。辞書に無い単語が動詞などの用言であれば結果はめちゃくちゃとなります。

しかし現在では意味解析は人間が人工的に作ったもので人間の脳は意味解析をして翻訳をしているのではないというのが定説になりつつあります。その理由は翻訳ソフトの不都合を理解してもらえば人間には起こりえない事実がたくさんあり、皆さんが翻訳の過程でそんな体験をしてないことからも理解できると思います。

単語切り出し
翻訳ソフトには問題はまだまだ多くあります。たとえば日本語文章の文字切です。英語は翻訳ソフトで形態素に分解してくださいと言わんばかりにスペースで区切られており機械処理に向いています。しかし日本語はとてもむずかしいのです。文字切の例として“文法解析には自動的”を形態素に分解する場合に“文法解析”を1語としてみることも2語としてみることもできます。その結果文法解析や辞書参照に間違いを起こします。日本語は機械処理には非常に難しい言語です。

その他に翻訳ソフトの開発者から開発当初は日本語文章の文末を判断するのが難しいと言っていました。英文はピリオドにスペースあるいは3つ以上のスペースで文末と判定できます。日本語ではそう簡単にいきません。今では各翻訳ソフトともいろいろ工夫して上手に解決しているようです。

アルファベットになった英語は見た目にもはっきりと単語が切り離されています。しかし音して発音された英語は音のつながりで特に短いセンテンスではどこにも区切りがありません。しかし研究によるとどうもストレス(強調)を目安に単語を切り出しているようです。

制限言語
機械翻訳の世界には“Garbage in, garbage out.”と言う表現があります。意味の分からない文章を翻訳ソフトにかけても意味の無い翻訳になることです。日本語には冗長の文が多くそのような日本語を翻訳ソフトにかけると惨憺たる結果を得ます。そこで翻訳ソフトが上手に翻訳できるように原文を作ったらどうかと提案がでました。語彙とか文章構造に制約をかけた表現と言うことでそれは“制限言語”と呼ばれました。しかし機械を使うために人間が擦り寄るのは邪道だとの意見が多くこの考え方あまり受け入れられませんでした。私は翻訳や通訳を長いことやってこの制限言語的な考えはある程度賛成です。意味の分からない原文をどのような通訳や翻訳者に頼んでも立派な英語になりません。

このように翻訳ソフトは多くの問題点をかかえています。しかし現在ソフトが短期間のうちに飛躍的に改良される可能性はありません。現在の翻訳ソフトは意味解析のソフトとしてはかなり完成の域に近いのです。何が問題なのでしょうか。それは意味解析と言うアプローチの方法が間違いだと言われています。

対訳コーパス
意味解析はソフトが形態素を訳してソフトが勝手に並べ替えるため並べ終わった結果が非常に不自然となることが多くなります。訳文が良く使われるかどうか判断できないのです。そこで出てきた考えが対訳コーパスです。原文と訳された文章をたくさん記憶させ一番近い文章を参照させる方法です。この機能を使ったソフトは翻訳会社ではマニュアルの改訂版など作る場合翻訳支援ソフトして使われています。例えば70%マッチングと設定すると原文の文章が70%以上近い原文と訳文でてきます。原文と違っている単語をハイライトしてくれます。これは完成した文章を検索しますので直ぐに訳文が使える利点がありますが60%以下のマッチングでは訳し直す方がずっと楽です。しかしこれらの翻訳ソフトは蓄積が大量になければ何の訳もでてきません。現在の翻訳ソフトとしては対訳コーパスベースのものはありません。

将来の本格的な翻訳ソフトは対訳コーパスをうまく活用する翻訳ソフトだと言われています。しかし対訳のデータベースを構築するのか、どのくらいの蓄積量が必要なのか、どう活用すべきかまだほとんど分かっていません。

人間の頭脳ではどう翻訳してるか
英会話を話す場合我々も翻訳とは無縁ではいられません。それでは脳ではどのように翻訳しているのでしょうか。大脳生理学でもはっきりと分かっていません。多分意味解析か対訳コーパスというような単純なものでなくいくつかのプロセサーが同時に対訳コーパスを参照したり、意味解析をしたり、その表現が自然に聞こえるか比較したりして翻訳していると思われます。しかし自分の感覚ではやはり対訳コーパスを使っていることが一番多いように思われます。会話をしている時はどう考えても意味解析はしていないと思っています。英語回路をつくるとか英語脳を作るというのは間違いなく対訳コーパスの蓄積を意味しています。

すると英会話の上達はいかに多くの対訳コーパスを頭脳の中に蓄積して、必要な時に引き出すかにあります。掛け算九九のように音を関連させると有効です。つまり英語の文章を多く覚えるというのは対訳コーパスの考え方にもかなっていると言えます。たくさん蓄積があると近いセンテンスを検索してそのセンテンスを必要に応じて変化させる能力もでてきます。

HOME|最適性理論とは|教材オンラインショップ|特定商取引法の記載|個人情報保護方針|お問い合わせ
Copyright(C) 2011 最適性理論で英語学習 All Rights Reserved