このページの先頭です

メニューを飛ばして本文を読む

ここから本文です

サイト内の現在位置

研究者情報:研究・産学連携

研究室紹介OPAL-RING
清 研究室

秘匿性と実用性を兼ねるプライバシー保護技術と、AIの社会適用

所属 大学院情報理工学研究科
情報学専攻
メンバー 清 雄一 助教
所属学会 情報処理学会、電子情報通信学会、日本ソフトウェア科学会、米国電気電子学会(IEEE)、米国電気電子学会コンピュータ学会(IEEE Computer Society)
研究室HP http://www.ohsuga.lab.uec.ac.jp
印刷用PDF

掲載情報は2017年3月現在

清 雄一 Yuichi SEI
キーワード

プライバシー、データマイニング、人工知能、ソフトウェア工学

2015年の「個人情報の保護に関する法律(個人情報保護法)」の改正(全面施行は2017年5月30日)を受けて、特定の個人を識別することができないよう匿名化すれば、本人の同意を得ずに、一定の条件の下で自由な利活用が認められるようになりました。医療機関などで蓄積された医療ビッグデータを、新薬の開発や治療効果の分析などに役立てられるとして期待が高まっています。

一方で、それは個人情報の漏えいリスクと常に隣り合わせであるといえるでしょう。今から10年以上前、米国において、名前を伏せた医療データを作成したものの、「誕生日」「性別」、「自宅の郵便番号」の情報から多くの個人が特定可能なことが指摘され、公開を取りやめた経緯があります。現にこの三つの情報から、米国の全人口の87%が特定できるという研究報告がされています。
さらに、IoT(モノのインターネット)の発展により、今後、個人に関するさまざまなデータが生成されるようになると、たとえ、匿名化していたとしても、意外なデータの結びつきから個人が特定されてしまうといったリスクも増大していきます。

ダミー情報を混ぜて匿名化する

このような背景において、清雄一助教は、十分な秘匿性を確保しつつ、ビッグデータの解析にも適した実用性の高い「プライバシー保護データマイニング(マイニング:採掘)」技術を提案しています。開発した手法は、例えば、【30歳のエイズウイルス(HIV)患者】のデータを匿名化する場合、実在しないダミー(疑似)情報として、そこに【51歳の食道炎患者】といったランダムな情報を潜り込ませます。
従来の匿名化手法は、前述のデータでは、【21歳―30歳のHIV患者】というように、ある程度の幅を持たせて抽象化するのが一般的です。ただ、安全性と利便性は常にトレードオフの関係です。原則として、秘匿性を上げれば安全性は向上しますが、必要以上に秘匿してしまうと、実用上意味の無いデータにもなりかねません。

「匿名化」手法の比較

新手法では、通常、1行のデータごとに複数のダミー情報を織り交ぜることで、個人は匿名化しつつ、抽象度は上げずにデータを扱うことができます(例えば、【30歳のHIV患者】のデータに、【30歳の食道炎患者】と【51歳のHIV患者】といったダミー情報を加える)。ダミー情報は特定できないことから、安全性が高く、かつデータ全体としては統計的に分析できるため実用的です。
実際に、米国の国勢調査における約5万人分のデータを同手法で匿名化し、解析したところ、年齢別の職業の分類において、従来手法より平均二乗誤差を2ケタほど減らすことができました。挿入するダミー情報の数を増やせば、秘匿性をより高めることも可能です。清助教は、「現在主流のほぼ全ての匿名化指標に適用可能であり、限界はあるものの、あらゆる分野の秘匿情報のビッグデータ解析に使える」と期待しています。

AIで河川の水位を予測

また、これと全く異なるテーマとして、人工知能(AI)技術を使って物理現象を推測するといった研究にも取り組んでいます。一つの例が、AIを使った河川の水位予測です。河川の水位予測は、従来、物理モデルや一般的な機械学習を使ったモデルの導入にとどまっていました。これに対して、清助教は日本工営(株)と共同研究を進め、昨今注目されているAI技術の一つであるディープラーニング(深層学習)を初めてこの領域に適用し、予測の精度を向上させました。

解析結果の比較

ディープラーニングの活用により、従来手法よりも予測誤差を数十%減らすことができました。大雨や洪水時に河川の水位をリアルタイムに測定し、例えば、現在から6時間後までの1時間ごとの水位を随時更新しながら予測できれば、河川が危険水域を越えた際などに、素早く的確な警報を発することができるかもしれません。
加えて、ツイッターやフェイスブックなどの会員制交流サイト(SNS)をAIで分析し、そこから人の好みや行動などを抽出するデータマイニングの研究も手がけています。面白い研究トピックとしては、ツイッターの投稿内容が“炎上する”確率を予測するモデルなどを作成しています。

河川水位の予測における実データとの一致度
(一番上が提案手法、それ以外は従来手法)

ソフトウエア工数を見積もる

これらの研究にとどまらず、ソフトウエアの開発工数を見積もるサービスも検討しています。一般にソフトウエアの開発プロジェクトでは、見積もりに基づいて受注金額や人員配置などを決定します。そのため事前の見積もりを誤ると、多大な損失を被ることにもなりかねません。清助教は、「熟練のソフトウエア技術者の経験や勘を『形式知化』し、誤差の少ない見積もりを行うための方法論を構築したい」と考えており、こうした分野での社会貢献も目指しています。

【取材・文=藤木信穂】

研究・産学連携