創立100周年記念公開講座－超スマート社会の実現を目指す最先端の科学・技術研究－（第6回）

人が言葉を覚える仕方と人工知能が言葉を覚える方法

南泰浩（情報・ネットワーク工学専攻）

東ロボくんの挑戦

言葉は多様な要素で成り立っている複雑なものです。その要素は、音声、語彙、文法、文脈・意味と大まかに4つに分けることができます。人間もコンピュータもこれらの要素を統合して言葉を理解しています。現在、コンピュータが一番苦手としているのが、文脈・意味の理解の部分です。私たちは、人工知能を少しでも知能に近づけるために研究を続けています。
私は、国立情報学研究所が中心となって進めている「ロボットは東大に入れるか。」プロジェクト（東ロボプロジェクト）に参加して、人工知能がどこまで人間の言葉を理解するのかを研究してきました。東ロボプロジェクトは、2016年までに大学入試センター試験（センター試験）で高得点をマークすることと、2021年度に東京大学入試を突破することを目標にしてきました。研究は、国語、数学、英語、理科、社会と、各教科などに分かれて進められ、私は英語チームに参加しています。
東ロボくんは、2014年～2016年までセンター試験の問題を解き、この3年間で着実に成長してきました。しかし、2017年度からセンター模試・東大模試によるシステム評価は凍結した状態になっています。プロジェクトの評価は凍結状態ですが、各チームは、現在も研究を続けています。ここから、東ロボくんの成長を、音声、語彙、文法、文脈・意味の4つの観点から振り返っていきます。

人工知能の武器は辞書やデータベース

最初に音声です。センター試験の筆記では、音声は発音・アクセントの問題として出題されます。試験問題を解くときに、東ロボくんは事前にデータを集めて作製した辞書を使ってもいいことになっています。それが人間の知識の代わりだからです。ただし、試験中はインターネットにアクセスして答えを探すことは禁止されています。
東ロボくんにとって、発音・アクセントの問題は得意分野で、大きな得点源となっています。なぜなら、東ロボくんは、音声認識用の発音辞書を持っていて、この辞書がセンター試験の出題範囲をほぼカバーしているからです。そのため、高い正答率を誇っています。
次は語彙についてです。語彙は難しい問題を含んでいます。例えば、問題文の中で下線が引いてある単語と同じ意味合いの語句を選ぶ問題。人間の場合は、周りの文章を読んで、その文章の中から単語の意味を推測していきます。そして、選択肢の中から、言葉の意味の近いものを探します。
しかし、コンピュータの場合は、そんなことはまったくしません。たくさんの単語が登録されている大規模なテキストデータベースを用意して、特定の単語の周りに、どのような単語が出てくるのかを調べていくのです。例えば、猫を意味する「cat」の周りには、「lovey」「pet」「like」「love」「have」「a」「the」「cute」といった単語が出てきます。次に、子猫を表す「kitten」の周りに位置する単語を調べると、「like」「love」「have」「a」「the」と同じような単語が登場します。このように、同じような単語が周りに出てくる単語同士は意味合いが近いということをコンピュータが計算します。
このような計算をして、それぞれの単語の意味の近さを調べていきます。実際の試験問題の場合は、データベースの中で対象となる単語の周りに登場する単語を調べます。そして、選択肢の単語の周りに出てくる単語も調べます。そして、周辺に出現する単語の一致率が一番高いものを回答として選択します。
このように人間のやっていることと人工知能のやっていることはまったく違います。ここで利用した人工知能は周りの文章はまったく読まず、過去に収集した文章を見て、選択肢の単語を見て、同じような場所に出てくる単語を回答していきます。そうすることで、３年間のセンター試験の問題で70％くらい、2016年の問題ではほぼ正解することができました。

データ量の増大で性能が大きく向上

データ量の増大で性能が大きく向上 3つ目は文法です。文法の問題もいろいろとありますが、穴埋め問題の場合を考えてみましょう。センター試験の中で
　I have a severe toothache, so I made ( ) with the dentist.
という問題がありました。この問題では、
　a promise
　a reservation
　an appointment
　an arrangement
と4つの選択肢が示されていました。
問題文では、歯医者の予約を取る表現について聞かれています。人間の場合は、予約を取るという表現は「make a reservation」か「make an appointment」であることを知っています。この場合は、歯医者の予約なので、「an appointment」の方が適当だろうと、正解を選択していきます。
では、コンピュータはどのように正解を導くのでしょうか。これも、事前に収集したデータベースを使います。データベースの中から、madeの後に、どのような単語が登場するのかを確率的に調べていきます。今回の場合は、「an appointment」が登場する確率が一番高いので、これを選択しました。このように回答して、80％くらいの正答率が出ました。人間のように1つ1つの単語の意味がわかっているわけではないのですが、収集したたくさんの文章データを見ていき、最も多く登場する言葉を、最も確からしい回答として選び出していくのです。たくさんの単語を並べ替えて意味の通る文章にしていく語句整序問題も、基本的には穴埋め問題と同じ手順で解いていきます。例えば、6つの単語を並べ替える問題では、並べ方は全部で720通りあります。そのすべての並べ方と収集したテキストデータを照らし合わせてみて、もっとも出現頻度の高い並べ方が正しいと見なし、そこから回答を導いていきます。このような問題では、13問中10問で正解となりました。
近年、人工知能は大きく発展し、世の中で騒がれています。人工知能の性能が大きく向上した要因の１つに、データ量の増大があります。東ロボくんもデータ量が大きく増え、性能アップにつながっています。2015年のシステムでは、テキストデータは10億単語分ありました。これが2016年になると500億単語と50倍になっています。文法・語彙・語法の問題を2015年のシステムで解くと、正答率は67.2だったのですが、2016年のシステムになると85.7％に上がります。語句整序問題は、2015年のシステムでは90.5％で、2016年のシステムになると96.2％にまで正解率が高くなっています。
このようにデータ量を多くするほど、性能が上がります。これが最近の人工知能の特徴です。人工知能は、インターネットが普及したおかげで様々なデータが使えるようになっています。大量のデータを使うことで認識の精度がどんどん上がっているのです。

人工知能の苦手分野

最後に、文脈・意味の分野です。コンピュータは、文脈や意味の理解を問われる問題を苦手としています。その中でも、コンピュータが比較的解きやすいのが、会話を完成させる問題です。
コンピュータには、「あることを言われたら、このように答えなければいけない」という知識はありません。そこでここでも大量のデータに頼ります。大量のデータから、ある単語の並びがどのような意図を持っているかということを、あらかじめ評価する基準をつくっておき、単語の並びを評価していきます。
また、会話では相手がネガティブなことを言えば、次に出てくる言葉はネガティブになりやすく、ポジティブな表現にはポジティブなことを返しやすい傾向があります。このような傾向も、大量のデータから学習しています。これらの学習結果から、会話の中で空欄に入る文章を選んでいきます。ただ、これらの手法を使ったとしてもできることは限られていて、正解を導き出したのは15問中7問、正解率は50％ほどです。
文脈や意味の理解の問題は、この他にも様々なバリエーションがあります。他の分野の問題は同じような形式で出題されますが、この分野はイラストを使ったり、文章の中に計算問題が組みこまれたりと多種多様です。イラストの判別はコンピュータの苦手としているものの1つで、文脈理解にイラストが絡むと、さらにコンピュータで問題を解くのは難しくなります。
コンピュータは大量のデータを収集して学習していきます。しかし、このような問題は過去に出題された類似問題がとても少ないので、学習するためのデータ自体が少なくて、現状では、コンピュータの性能を上げるのは難しい状況にあります。

2種類のアプローチでわかった言語習得の真実

ここまで、人工知能が言葉を覚えることについてお話をしてきました。ここからは人が言語を覚えることについて話していきます。語学の習得には母語である第一言語習得と、外国語としての第二言語習得の2つの種類がありますが、ここでお話しするのは第一言語習得についてです。母語の語彙を覚える過程を観察するのに、だいたい2年くらいの時間がかかります。
その過程をつぶさに観察したとしても、対象が1人だけではデータに信憑性が生まれません。統計的な信頼性を得るには、1000人くらいの観察が必要になります。その規模で長期にわたり記録を取れば信頼性の高いデータが得られることになります。しかし、現実的にはそれは不可能な話です。このような事情もあり、人間の第一言語の習得についてはわかっていないことがたくさんあります。
私たちが取り組んでいる第一言語の語彙の習得は発達心理学に属する課題です。心理学のアプローチには、いろいろなアプローチがあります。人間の言葉の習得の研究では精密なデータを大量に取ることができないので、ある程度精密さには目をつぶってデータを取ることもありますし、少ないデータを精密に取るということもあります。考えられる可能性を考えて、いろいろな性質のデータを組み合わせて、少ないデータでも、実際に起きていることを把握するということをしています。
私たちが語彙習得研究のアプローチとして採用したのは、アンケートと日誌法の組み合わせです。アンケートは1回限りのものですが、1700名に協力していただいて、なるべく幅広い月齢の子どもたちのデータを収集できるよう心がけました。日誌法は、個人差をとらえるもので、お母さんに日々、赤ちゃんが覚えた言葉を細かく記録してもらいます。この方法では、17人のデータを2年間にわたり収集しました。このような研究は世界的に見てもあまり実施されておらず、私たちの研究からとても貴重なデータが集められています。
発達心理学の本の中には、幼児は1歳半過ぎから急に新しい語をたくさん言い始める「語彙爆発」という現象が紹介されています。その中の1冊には、語彙爆発の説明の中で、「子どもによっては1日に新しい語を十数語も言えるようになるといわれている」と記述されていました。しかし、「といわれている」という表現があるように、語彙爆発がどのように起こるのかということは、実際のところ、よくわかっていないのです。
それでは、語彙爆発は実際にあるのでしょうか。データを分析してみると、語彙爆発のような現象は存在することがわかってきました。語彙爆発は、幼児が40単語くらい覚えたあたり、日齢にすると612日目あたりから始まります。語彙爆発の前は、1日あたり0.18単語（5日で1単語）のペースで覚えていきますが、語彙爆発の後だと1日に1.3単語になります。単語を覚えたペースをただ記録して、直線を引いてみると、従来の説と同じような感じで語彙爆発が起きている様に見えます。ただ、分析をしていて、語彙爆発の前は単語を覚えるタイミングにムラがあって、単に直線を引いただけでは現実に即さないのではと思うようになりました。そして、もっと細かく見てみると、語彙を覚えている時期と覚えていない時期が明確に分かれていました。
最初の頃は、覚えない期間は、穴が空いているようで違和感があったのですが、研究を進めてみると、言葉を覚えない時期は、心理学でよく言われる学習休止期（プラトー）であることに気づいてきたのです。試しに、語彙学習のグラフからプラトーの時期を取り除くときれいな直線になります。これは語彙爆発の前後で語彙を覚える速度に変化がないことを表します。つまり、幼児の語彙学習は、初期段階で、学習期とプラトーを繰り返していますが、ある時期からプラトーがなくなることで、あたかも爆発的に語彙を学習する語彙学習が存在するように見えていたのです。このような関係がわかってきて、次に気になったのが語彙を覚える速度は何によって決まるかです。分析してみると、最初の方に名詞を覚える子どもは語彙の習得が速い傾向があることがわかってきました。

知能と人工知能の違い

今回、人間の言語取得は語彙に限ってお話ししましたが、話を少し広げて、人間とコンピュータの違いを明確にしたいと思います。人間の知能は、言葉を自身のいる環境の中から自律的に覚えていきます。つまり、お母さんとのやり取りの中から言葉の意味を発見して覚えていきます。
それに対して、人工知能は辞書や整ったデータを与えないと学習することはできません。その代わり、人工知能は10億単語もの膨大な言葉を1～2日と短時間で覚えてしまいます。人間は、1つの単語を1～2日かけて覚えるので、人工知能と比べるとかなりの時間がかかります。
現在、人工知能が言葉を理解するうえで一番のハードルとなっているのが、文脈・意味の理解です。実は、人間の知能が文脈・意味をどうやって理解しているのかということも、よくわかっていない部分が非常に多くあります。ですから、人間が言語を習得するしくみを解き明かしていき、それによって得た知見を、人工知能の性能向上に役立てていきたいと考えているのです。

創立100周年記念公開講座 －超スマート社会の実現を目指す最先端の科学・技術研究－（第6回）