このページの先頭です

メニューを飛ばして本文を読む

国立大学法人 電気通信大学

ここから本文です

お知らせ

【ニュースリリース】2値分類器の結合による多値分類法の理論的解析に成功 深層学習モデルにおける性能向上に期待

2023年02月02日

発表のポイント

  • 機械学習分野において、2値分類器を組み合わせて多値分類器を構築するError-correcting output coding(ECOC)は実験的に良い性能を示すことが知られていましたが、その理由は理論的に明らかになっていませんでした。
  • 本研究では2値分類器の推定性能に着目し、その推定誤差に対して頑健なECOCの枠組みを数理的にモデル化することで、分類誤り率を最小とする最大事後確率分類に限りなく近づける方法を理論的に明らかにしました。
  • 近年脚光を浴びている深層学習モデルに本研究成果を適用することにより、その性能向上に大きく寄与することが期待されています。

概要

雲居玄道講師(早稲田大学データ科学センター)、八木秀樹准教授(情報・ネットワーク工学専攻)、および小林学教授(早稲田大学データ科学センター)、後藤正幸教授(早稲田大学理工学術院創造理工学部)、平澤茂一名誉教授(早稲田大学)による共同研究グループは、2値分類器を組み合わせて多値分類器を構築するError-correcting output coding(以下、「ECOC」)の枠組みを数理的にモデル化し、ECOCが良い分類性能を示すための、2値分類器の組み合わせの条件を理論的に明らかにしました。

本研究成果は、シンガポール・World Scientific社発行の『International Journal of Neural Systems, Vol. 33, No. 2(2023)』に、論文名 "Performance Evaluation of Error-Correcting Output Coding Based on Noisy and Noiseless Binary Classifiers" として掲載されました。

これまでの研究で分かっていたこと(科学史的・歴史的な背景など)

機械学習分野において、データに紐づけられた内容を表すカテゴリを学習し、新しい入力データのカテゴリを推定する分類問題は大きなテーマの1つです。対象とするカテゴリ数が2つのものを2値分類問題、3つ以上のものを多値分類問題と呼びます。このカテゴリ数が多くなるほど問題が複雑になるため、分類問題を解決するには多くの困難があります。
この多値分類問題を解決する方法の1つに、2値分類問題の組み合わせと捉えるECOCが1994年にT. G. Dietterichらによって示されました(図1)。ECOCは符号理論における誤り訂正の考え方を援用した方法で、複数の2値分類器を用いることで、いくつかの2値分類器の出力が間違っていても正しいカテゴリを推定することができるという仕組みです。

Error-correcting output coding

図1:Error-correcting output coding

そのため、多値分類を2値分類として様々なパターンに2値変換して2値分類器を構築します。例えば、カテゴリ数が4の場合、最も単純な方法は、2値変換に4つのカテゴリを1対3に分割する4種類の2値分類器を用いる方法でOne-vs-Restと呼ばれます。これ以外に、2対2に分ける2-vs-Restが考えられ、最大で7種類の2値分類器を用いることが可能です(図2)。この最大の2値分類器数をもつExhaustive Codeから良い性能を示す2値分類器の組み合わせを選択することがECOCの大きな課題です。そのため、多くの研究が成され、様々なデータに対してECOCが良い性能を示すことは実験的に知られています。しかし、実験条件を変えれば良い性能を示す2値分類器の組み合わせが変わることから、2値分類器の組み合わせ方法の明確な答えは示されていませんでした。

カテゴリ数が4つの場合の2値分類器の組み合わせ例

図2:カテゴリ数が4つの場合の2値分類器の組み合わせ例

今回の研究で新たに実現しようとしたこと、明らかになったこと

本研究では、よい性能を示す2値分類器の組み合わせを明らかにするべく、2値分類器の推定性能に着目しました。一般的にデータから分類規則を学習した2値分類器は、データの不足などから推定誤差が生じると考えられます。この推定誤差に対して頑健な2値分類器を組み合わせるための条件を明らかにしました。この結果、2値分類器の構成を示す符号語表に対し、符号語間のハミング距離を大きくすれば、2値分類器の誤差の分散が大きくなったとしても分類誤り率を最小とする最大事後確率分類に限りなく近づくことを明らかにしました(図3)。

定理に基づく解析結果(カテゴリ数8の場合)

図3:定理に基づく解析結果(カテゴリ数8の場合)(※4)

そのために新しく開発した手法

従来、ECOCの理論的解析が困難であった理由は、分類問題がもつ複雑性が要因であると考えられます。この原因は、データに含まれるノイズと2値分類器の推定誤差であるノイズが混在しているため、実験では実験条件に依存した結果しか得られていなかったことと考え、この2種のノイズを仮定した数理モデルを新たに考案しました(図4)。
この数理モデルに基づき、本研究では2値分類器のノイズに統計的な性質を仮定し、符号語間のハミング距離を用いてカテゴリ間の分類誤り率を解析する手法を開発しました。

ECOCノイズモデル

図4:ECOCノイズモデル

(論文情報)
雑誌名:International Journal of Neural Systems
論文名:Performance Evaluation of Error-Correcting Output Coding Based on Noisy and Noiseless Binary Classifiers
著者名
雲居 玄道(早稲田大学データ科学センター 講師(任期付))
八木 秀樹(電気通信大学大学院情報理工学研究科 准教授)
小林 学(早稲田大学データ科学センター 教授)
後藤 正幸(早稲田大学理工学術院創造理工学部 教授)
平澤 茂一(早稲田大学 名誉教授)
掲載日時(現地時間):2023年1月9日(月)※オンライン
掲載URL新しいウィンドウが開きます https://www.worldscientific.com/doi/10.1142/S0129065723500041

(研究助成)
研究費名:日本学術振興会(JSPS)科学研究費(基盤研究C)
研究課題名:ビジネス価値創造のためのデータ解析プラットフォームと時変協調フィルタリングの研究
研究代表者名(所属機関名):小林 学(早稲田大学)
研究費名:日本学術振興会(JSPS)科学研究費(基盤研究C)
研究課題名:高信頼・高安全な符号化システムの実現に向けた理論展開
研究代表者名(所属機関名):八木 秀樹(電気通信大学)

詳細はPDFでご確認ください。