英語の音声認識は音のストリーム・ベース


私は英語のリスニング力を高める練習をするために、脳で音声をどう認識しているのかに非常に関心がありまして。そのため英語の音声認識のソフトの評価をしていた英語耳の松澤さんの掲示板で音声認識の議論をしました。

そして長い議論の末、2006年に松澤さんは英語の音声認識は英語耳で説明する43の音素ベースの認識でなく、音声の動的変化、つまり音のストリーム・ベースである事を100%認めてくれました。これが音のストリームを普及するための第一歩となりました。

タモリの「空耳アワー」をごぞんじでしょうか。外国語の歌の一部が、言われてみると日本語のフレーズのように聞こえるのです。日本語と外国語の違う音素同士のフレーズがなぜ同じように聞こえるのでしょう。英語の場合はどうしてこのフレーズが日本語に聞こえるのか不思議に思うフレーズも多くあります。これは音素ベースでは絶対に説明できません。幾つかの音の特徴が非常に似ているためそれに合致した日本語が思い出させ、確かにあたかも日本語のように聞こえています。

音声認識は多くの錯覚をうまく利用しております。

音の特徴から認識しているので日本語で話しているのに英語風に聞こえる逆空耳もあります。実は日本語であるけど英語みたいに聞きえるのは音の特徴(主にストレス)が似ているからではないでしょか。音素を数えれば似ている率は少ないのですが特徴は非常に似ています。

HoTTA imo ijiruna. (掘った芋いじるな)
What time is it now?

DoiTashi Mashite. (どういたしまして)
Don’t Touch my Mustache.

人はすべての音を聞き取れなくても、間違っていても意味が解釈できるのは何故でしょう。インド訛りのようのthがtになっても日本語でshの音がthの音になっていても他の音の特徴が同じであれば意味を捉える面からはまったく問題を起こしません。また辞書のように始めの音のから順に検索する引き方であれば頭の音を間違えてしまえば絶対に意味が分からないはずです。日本人のほとんどはスペルの知らない単語のLとRの完全な聞き分けはできなせん。しかし、そのために理解が困難であるとか、間違えると言うことがほとんど無いはどうしてでしょうか。

これらの不思議な現象を検証すると人間は全ての音を完全に聞き取って音の辞書に音の辞書に全てを参照していないようです。実際には音の所々の特徴を捉え直感的に検索します。また聞きながらどのような音がなのか、どのような単語や文章がでるのかを常に推測して、音の特徴から連想される単語や文章と照合しているのではないでしょうか。文頭や単語の頭の音が分からなくても残りの音の特徴があえば音の認識ができます。

NTTコミュニケーション科学基礎研究所、人間情報研究部、感覚運動研究グループの柏野牧夫氏は長いこと音声認識の研究をしていました。ネットサイエンスのメールニュースで次のような発言をしており大変参考になりました。

現在行われている音声認識の場合に多くの理論は証拠と犯人とを混同しています。音声認識のゴールは犯人捜しであって証拠捜しではありません。証拠捜しでは無いのですが、知覚というプロセスは証拠捜しであり、最終的に知りたいのは犯人になります。音声を聞いた場合に犯人の遺留品はたくさんあります。音響信号というのは犯人の遺留品に過ぎません。犯人の遺留品がこうであるとか、指紋がこうであるとか、犯行に使った凶器が落ちていましたとか断片的な情報が与えられる場合、それで犯人が特定できれば目的は達成できます。

ところが多くの音声認識の議論は、ここに指紋があったら全部の指の指紋がないと犯人は作り上げられないとかを主張します。別にそこから犯人を作り上げなくとも、犯人が一意に特定できさえすれば良いのです。だからある種、知覚というのは仮説の積み重ねによる選択と特定のプロセスです。脳内に蓄えられているいろいろな事前知識もあるし、それからいろいろな感覚器官から入ってくるいろいろな情報がありますが、結局それは全部状況証拠で、これに基づき犯人だと思える者はこれではないかという仮説をどんどん作り出していきます。ある段階で犯人を100%絞りきれなくても、かなり強い証拠が入ってきたらそれ以上聞かなくても、これだと確定できるかもしれません。

だから、証拠が入ってくるのをうまく取り入れながら仮説を更新していくプロセスが働いていれば、絞り込みというのはどんどん、オンライン処理で変わっていきますので、先の時点と今の時点とではまったく同じ情報が与えられてもまた振る舞いが違ってもかまいません。先の時点でこの指紋が見つかっても、それでも犯人を絞れないかもしれません。その時点で指紋が見つかったら、それはもうこれしか犯人ではないと判断されるかもしれません。そういうプロセスを進めるのが音声認識だと思います。

ハーバード大のスティーブン・ピンカー氏はこの種の判断を深度優先検索と呼んでいます。コンピュータは可能性を全部上がる事が得意であり、それを横幅優先検索と呼んでいます。

人間のニューロネットワークはこのような深度優先の直感的な判断に適しているようです。

HOME|最適性理論とは|教材オンラインショップ|特定商取引法の記載|個人情報保護方針|お問い合わせ
Copyright(C) 2011 最適性理論で英語学習 All Rights Reserved