英語のリスニング

英語のリスニング

脳のリスニングの仕組みは次のようになっています。音素の照合ではなく、音の特徴のパターンマッチングです。

リスニングの仕組み

なにか探しものをしているとき、皆さんはどうやって探し出して見つけますか。探しているものの形であったり、色であったりなど、探しているものの特徴を元に探しものを見つけるはずです。この何かしらの特徴を元にほしいものを探して見つけるという行動のことを、パターン認識といいます。

現在私達の生活を支えているAIの多くは、このパターン認識ができるタイプのAIが多いです。あまり実感できない人も多いですが、普段何気ない行動でも、このパターン認識によって助けられていることは多くあるのです。

例えば、待ち合わせ場所で友人を探しているとします。当然ながら待ち合わせ場所には友人以外にも多くの人がいます。その中で友人を見つけるには、様々な判断材料が必要になります。探している友人の顔や髪型などの視覚で捉える身体的特徴、そして友人の声などの耳で捉える身体的情報などを駆使して、その友人を探し出します。

このようにパターン認識というのは、論理的な情報を元に探すのではなく、画像や音声をそのまま用いて探し出すのが特徴です。現在はAIでも当たり前のようにパターン認識を行っていますが、そのAIが誕生する遥か前から、人間が普段の生活で当たり前のように行ってきているのです。

パターン認識と学習の関係

パターン認識と聞くと、かなり複雑な言葉のように聞こえますが、実は意外にもシンプルなものです。人間というのは生まれた瞬間からすべてを知っているわけではありません。親から言葉などを学び、そして学校で勉強することによって知識が蓄えられます。それはコンピュータも同じです。人間に覚えてほしいことを教えるように、コンピュータに覚えてほしいことを教えるのです。

そして学習したことをきっかけに、より多くの情報を得たり、学習したことをきっかけに様々な決定を下したりします。親などから教わった言葉を元により複雑な情報を覚えたり、何をしてほしいかなどの意思を伝えたりなどします。コンピュータも同様に、教わった情報を元に新たな情報を取り入れたり、教わった情報を元にこうするべきだと提案します。機械学習というのは、人間が当たり前のように行ってきたことを機械にも行わせることなのです。

音声認識

ではこの機械学習とパターン認識はどのような関係があるのでしょうか。機械学習というのは、元々は機械に数字や記号を覚えさせることがきっかけで始まりました。様々な研究によって数字や記号を元に情報を覚え、そしてその数字や記号を元にどう対処すべきかを提案するまでに成長しました。しかしあくまでこれは論理的なことであり、すべての情報が論理的に処理できるわけではありません。

情報というのはときには数式や記号では表せないこともあります。人間の顔や建造物などはまさに論理的に処理できないものです。そこで活躍するのがパターン認識です。パターン認識と機械学習を組み合わせることで、論理的には処理できない人間の顔などの物体も学習させることができました。これにより論理的な処理の他に、パターン認識による処理も可能となり、結果的に機械学習の幅が大きく広がりました。そしてそれによりAIも進化したのです。

英語の音声認識は記憶にある音と、聞いた音の、音の特徴の照合です。