英語の発音とリスニング
ここの学習ではリスニングの練習のために、英語を聞く練習をするのではなくネイティブの音声を覚える学習をします。その理由は音声認識が記憶にある音と聞いた音の、音の特徴の照合ですから自然な音を覚える事が大事になります。
ネイティブの音声を覚えないと聞き取る事はできません。覚えてしまえば、速度に関係なく聞き取る事ができます。
ここではネイティブの音を覚えるために300の表現集を使って音のストリームの発音とリスニング学習ができます。ここではその発音をリスニング練習について説明します。
1.教材
この表現集は特に自然なリスニングや発音を意識して作られていますので、同じようなパターンが並べてあり、リスニングには最適だと思っています。
リスニングするためには幼児が言葉を覚える時と同じように、短い表現から覚える方が覚え易くなります。真似るのが簡単な音から覚えていきます。
ここには300の英文が教材となっています。もっと英語の音声を学びたい場合は下記サイトでは合計で6,000の英語表現の音声を学ぶ事ができます。
2.言語音とは
英語音声を聞き取るためには、その物理的には音声とはどのようなものでしょうか。
Linguisticsと言うタイトルの本では、実質的なEnglishの分析を行っています。他の言語がどうなっているかの例として日本語が英語と対照的に取り上げられています。この本の中で音声を、continuous streams of soundと表現しております。日本語にすれば連続的な音のストリームとでも訳せるかも知れません。音声は音のストリームなのです。言語学の権威ある本はcontinuous streams of soundと言っているのですから、音声が音のストリームであるは紛れもない事実です。
音声学では音素が並んでいると考えています。つまり母音と子音がありその母音と子音を分類して、その調音方法を教えています。
しかし、音声が連続的に変化する音のストリームですから、音声から母音と子音を取り出す事はできません。連続的変化する音を分類すると、母音でも子音でも無数の音になってしまいます。
音声学では音声には音素が並んでいると想定して、そして子音とか母音はそれぞれの音があると想定しているだけです。つまり音声学の音素は物理音ではなく、実在しない概念の音なのです。
3.記憶にある音と音の特徴で照合
音素が並んでいない、音のストリームの発音はどのように覚えれば良いのでしょうか。日本語の場合はまわりの大人つまりネイティブの音を真似しました。そして自分で聞いてフィードバックを得て矯正や修正をしたのです。それがトップダウンの学び方です。全体的な音声のゲシュタルトである、形を優先します。大事な要素は細かい音ではなく音の全体的な形です。
具体的にはリズム、イントネーション、速度等が大事になります。
音声認識はその音のストリームの認識になります。つまり自分の記憶にある音から、聞いた音の特徴で照合します。
英語話者が次の日本語を聞くと、
「掘った芋を穿るな。」
英語話者には次のように聞こえると言います。
What time is it now?
この場合も音素ベースで10%も合致しませんが、2つの音声は全体的な音の特徴が似ているのです。
音声を聞き取るためには英語の音のストリームを覚えないと聞き取りはできません。
4.発音とリスニング練習の進め方
音のストリームを覚えるためには、ネイティブの音を真似て、特に全体的な音の特徴を学ぶ事が大事です。そしてフィードバックで矯正と修正をします。英語(言語)の発音は発音記号の音を並べる事ではありません。
すべての言語は人間の叫びは動物の発生する音を真似る事から発達しました。極端な言い方をすれば言語は類人猿の鳴き声が非常に進化したものでありますから、音声の持つ物理的な特性は音素のような基本的な音が並んでいないことは明らかです。
音声の場合にいろいろな意味を込めたメッセージを音にして情報を交換していすので、言葉を使う人が意図した内容を聞いた人が同じように理解しなければなりません。
言語は複雑ではありますが、その仕組みとは文法のような体系化された規則や音素のようなものではありません。記述はできなくても、人々が理解できるコミュニケーション手段としては現実に使われていますから、文字では説明できない暗黙知として存在します。
また、言語の起源から見れば分かるように、全ての言語はその規則や基本となる音素が先に作られて言語が複雑な言語が構築されたのではありません。
いろいろな新しい表現がどんどん作られ、皆が使い、皆が継続的に使われている表現が残っていきます。言語表現は全てがランダムな音ではなく、文字で説明できませんが、相互が理解できる仕組みは存在しているのです。
5.連続性を重視
音声の実体は連続的に変化する音のストリームです。科学者が電子的な機材や人工知能を使い、音声をかなり詳しく研究し音声認識の実証ができるようになったのは西暦2000年の頃です。
これらの音声を研究や分析するのが音声学です。電子的な科学分析や脳科学と共に幅広い研究がなされるようになりました。
言語音は音素を発音したり、音素を聞き取れたりするものでありません。言語音は音のゲシュタルトつまり音の全体的な形を発音したり、認識したりしております。
音声の形を捉えるためにはまとまりが大事です。音が切れてしまうと音の形も切れてしまいます。
音の形を捉えるためには全体像が必要になります。するとその全体像は音の連続性がある事によって捉える事ができます。
6.音声情報の特性
全ての言語は音声言語が基本です。言語は音声が先に生まれました。現在では文字情報の方がネットや印刷物で良く使われますが、音声情報の方が基本であり、学ぶのであれば音声言語の方が効果的な学習が可能になります。
音声情報なら文字の知らない幼児でも学習できます。音声言語の方が学ぶのが楽なのです。しかし、一般的には大人は音声言語があまり得意ではないと思われており、そのために論理的な文法で学ぶ方が良いと言う考えになっています。
音声言語の方が学び易いのは子供だけでなく、大人にも同じ事が言えます。その理由は音声情報と文字情報の大きな違いがあります。
文字情報とは一般的に紙や画面を使います。つまり縦と横の2次元の情報です。しかし、音声情報は縦と横と高さと時間の変化をもつ4次元の情報となります。情報が2次元から4次元になる事により、膨大に情報量が増える事になります。
言葉を文字で表現するとその意味しか伝わりません。しかし、電話で誰かと話せば年齢、性別、感情、教養、性格、文化、地域まである程度は分かります。どうして分かるかと言うのは暗黙知ですから説明ができなのですが、確かにそのような事は分かります。
英語を音で覚えると、意味、文法、使い方、感情の込め方まで学習できます。多くの情報が付加されているためコミュニケーションが楽になります。そしてもちろんそれだけの情報が含まれているからコミュニケーションが楽しくもなります。
全ての母語は音声言語から学習するにはそれなりの理由があるのです。その複雑な音声情報にはいろいろな情報が含まれているので、その情報を理解する、そしてその情報を自分でも使うとより楽しい英語学習となります。
7.ディープラーニング
音声は連続的に変化する音であるために、発音において基本となる音素を学んで並べる学習方法では効果的な学習ができません。
音声を学ぶ唯一の方法は日本語の習得と同じようにネイティブを真似る事です。そしてフィードバックを得て、修正と矯正をすることです。
達人を真似る学習方法はディープラーニングとも呼ばれる脳の効果的な学習方法です。まわりの正しい発音を真似る事によりだんだん正しい発音に近づいていきます。正しい音が存在しないのですから、通じる発音に近づけていきます。
ネイティブを真似るプロセスは音の特徴を捉える学習です。しかし、真似る行為は単に音を捉えるだけでなく、反復練習により手続き記憶として自動化され、長期記憶に保存されます。
学習とは忘れないように覚える事であり、試験勉強のように忘れてしまうのは本当に意味の学習になりせん。
日本語でも英語でも言葉を話す時には文法を意識して話す事は無理です。多くの日本の英語学習者を文法で話そうとしますが、表現が不自然となり、発音も自然な発音にはなりません。
日本語だって発音を意識しないで話せるのは自動化されて保存されている記憶を使っているからです。
翻訳システムも音声認識システムも形式知であると思っていたためにデジタルのコンピュータで半世紀以上も研究されてきました。しかし、西暦2000年頃になるとコンピュータの性能もプログラムも進歩したのに音声認識の精度も限界を迎えました。
当時の音声認識は音素ベースであり、音声を小さな音の単位に切り離し、そしてその音の断片の音素を特定して、その音素の並びから単語や熟語を認識すると言う手法です。
しかし、問題は音声に音素が規則正しく並んでいないため誤認識が多くスペルチェックなどで補正しても精度に限界がありました。
そこで西暦2000年頃からは言語は形式知ではない、暗黙知ではないかと考える研究機関が多くなりました。暗黙知として扱うシステムにより、翻訳や音声認識の精度がどんどん上がりました。
8.音声認識AI
Baidu(百度、バイドゥ)は中国最大の検索会社であり、人工知能でも研究開発を加速しています。人工知能ではGoogleがトップを走っていましたが、2016年頃は音声認識ではBaiduが首位の座を奪ったようです。音声認識はシリコンバレー人工知能研究部門が手掛けています。
Deep Speechとは、人間の脳の構造を模した学習モデルのDeep Neural Networkを使った音声認識技術を指します。音声領域でNeural Networkを多層に展開することから、この名前が付きました。
人工知能の技術開発が大きく進展しているのですが、音声認識の領域は遅れており、まだ人間による聞き取りが、ソフトウエアの性能を大きく上回っています。特に、騒がしい環境での発言や、訛りのある言葉をシステムが聞き取るのは難しいのです。普通の自然な会話を聞きとるのは非常に難しいのです。
人工知能の音声認識の仕組みは多くの音声とテキストからなる事例基盤です。音素を介在させておりません。人間の音声認識と同じように音の特徴から似た音をマッチングしています。
この仕組みを理解できれば、スマホやタブレットで英語の音声認識をさせて認識されたと言う事は、正しい発音であるから認識結果が出た訳ではありません。
音声には正しい音素が規則正しくならんでいないのですから、正しいかどうかの判定はできません。正しい音が存在しないからネイティブを真似て学習せざるを得ないのです。
人工知能で音声を判断してもらう事はできません。音声認識されたと言う事は正しい発音である証明ではありませ。
音声には音素が並んでいないのですから、人工知能で正しい音かどうかの判断はできません。音素が並んでいないから多くの音声データを使い、その特徴の類似性をチェックしているに過ぎません。
それはソフトの判断基準を満足させているに過ぎません。
リスニングのための英語を覚える学習は次の教材から始めてください。