研究室紹介OPAL-RING
柳井研究室

ディープラーニングで画像の認識・領域分割を高性能化

所属	大学院情報理工学研究科情報学専攻
メンバー	柳井啓司教授
所属学会	情報処理学会、電子情報通信学会、人工知能学会、米電気電子学会コンピュータ学会（IEEE Computer Society）、米コンピュータ学会（ACM）
研究室HP	http://mm.cs.uec.ac.jp/
印刷用PDF	柳井研究室（PDF：0.9MB）

掲載情報は2017年3月現在

: 柳井啓司 Keiji YANAI

キーワード: 画像認識、画像理解、物体認識、機械学習、情報検索

コンピュータvs人間。その知性の対決は、科学技術の永遠のテーマと言ってもよいかもしれません。1997年にチェスの試合で人間がコンピュータに負けた時は、世界中に衝撃が走りました。2015年には、画像認識の分野で象徴的な出来事がありました。「1000種類の画像認識テスト」において、人間が初めてコンピュータに敗北したのです。

ディープラーニングの登場

そのきっかけは、12年に人工知能技術の一つであるディープラーニング（深層学習）を画像認識に応用したアプローチが登場したことでした。ディープラーニングとは、コンピュータ上に人間の脳を模倣した学習型の多層ネットワークを構築する機械学習の一手法です。膨大なデータを学習させることで、極めて高い性能を引き出せるのが特徴です。
これを境に、画像認識の基本手法はほぼすべて、ディープラーニングを使った技術に置き換わりました。画像認識を研究する柳井研究室では、これを「画像認識におけるパラダイムシフト」ととらえています。コンピュータによる画像認識性能はその後年々向上し、15年にはついに95％以上の認識性能を達成し、人間の能力を超えるに至ったのです。

リアルタイムで画像認識

このように飛躍的に発展する研究分野において、柳井研究室では、画像や映像における一般的な物体の認識の研究に取り組んでいます。ひとくちに画像認識といっても、文字認識や顔画像認識などはすでに実用化されています。一方で、画像の中から、例えば「空」や「山」、「ライオン」、「イス」などの一般的な物体について、その位置や名称を認識することはまだ難しく、研究が必要な領域です。
柳井研究室では、この一般的な物体の1000種類の画像認識において、スマートフォンなどのモバイル端末を使って、わずか0.03秒で高速に認識できる技術を開発しました。ディープラーニング技術を用いて、スマホ上で膨大な画像をリアルタイムで認識するシステムは世界初だそうです。ディープラーニングは通常、膨大な計算が必要ですが、高速化の工夫とメモリー使用量の節約により、リアルタイム処理を実現したのです。
最近では、スマホ上で動画を撮影しながら、リアルタイムに画像のスタイル（色彩やタッチ）を変換できるアプリケーションを開発しました。例えば、画像全体や特定の部分だけを、ピカソやゴッホのような画風に即時に変えることができます。これは独自の技術で計算量を減らしたことで、初めて複数のスタイル変換がリアルタイムで可能になりました。そのほか、画像の質感の変換などもできるようになっています

: 動画を撮りながら、同時にスタイル変換ができる

: ボールを石のような質感に変える

高精度の領域分割も

: 領域分割結果の例

さらに進んで、画像の領域を「分割する」研究にも取り組んでいます。画像認識でコンピュータが人間を超えたといっても、それはまだ限定的な課題にとどまります。高精度な領域分割は今なお人間だけがなせる技ですが、柳井研究室では、この作業をコンピュータに行わせる研究に乗り出しました。
例えば、馬と人が一緒に写っている1枚の画像があったとします。そこで、事前に「この画像の中には馬と人がいる」という情報を与えたとすると、約70％という実用上十分な精度で馬と人が存在している場所をそれぞれ特定できました。事前に情報を与えなかった場合でも、50％程度の精度で特定できます。これは世界トップ級の性能です。ディープラーニングの適用により、精度が約2倍に向上したそうです。

カロリー推定アプリや車載ナビなどに応用

: 食事認識アプリの表示例

こうした高性能な画像の認識、分割技術を使った応用システムも開発しています。代表的なものは、企業と共同で開発した『101種類の食事認識アプリ』です。食堂などで毎日の食事メニューをスマホで撮影するだけで、個々の料理を認識し、その場で摂取カロリーまで推定してくれる優れモノです。リアルタイムの高速処理ながら、93.5％（候補を5個挙げてその中で正解する確率）の精度を達成しています。最近では、料理に使う食材や調味料の情報も同時に学習させることで、カロリーの推定精度をさらに高めました。

ほかにも、デジタルカメラで撮影した画像を全地球測位システム（GPS）の位置情報によって管理し、自動で旅行アルバムなどを作成するシステムや、テレビ映像を自動でデータベース化し、特定のシーンを自動で検出するシステムなどを手がけています。車載カメラの映像から道路標識を認識することで、車を運転しながら行き先をリアルタイムで確認できるナビゲーションなども可能です。

グローバルに情報を収集

画像認識には膨大なデータが不可欠なため、ツイッターやフェイスブックなどのソーシャルメディアを含めたウェブ上から、大量の画像や映像をどのように効率良く集めるかといった「マイニング技術」も一大テーマです。1000種類の画像認識を行うには、1種類当たり1000枚の画像の登録が必要として、単純に1000枚×1000種類＝100万枚の画像が必要です。
柳井研究室ではコンピュータによる自動分類に加えて、「最後はやはり“人力”が要」だとして、世界中に仕事を発注してより安価な報酬で作業者を集める「クラウドソーシングサービス」という仕組みを積極的に活用しているそうです。さすが、世界で日々発信される生きた情報を扱う分野だけあって、その規模、手法もグローバルです。

【取材・文＝藤木信穂】

研究室紹介OPAL-RING 柳井 研究室