このページの先頭です

メニューを飛ばして本文を読む

ここから本文です

サイト内の現在位置

研究活動:研究・産学連携

データ関連人材育成拠点 研究室紹介

AIによる声質変換システム

名前 中鹿 亘(なかしかとおる)助教
所属 大学院情報理工学研究科
情報・ネットワーク工学専攻
OPAL-RING https://www.uec.ac.jp/research/information/opal-ring/0006847.html
研究室ホームページ http://www.sd.is.uec.ac.jp/

研究概要

人工知能(AI)技術を使い、人の発話内容について声質だけを加工する「声質変換システム」を開発している。インターホンの応答時に女性の声を、その場で男性の声に変換するなどして防犯対策に利用したり、ある人の声を永遠に残したりすることなどが可能。わずかな音声データで声質変換できる実用的なシステムを志向する。

研究テーマ

声質変換システム

男性Aの発話を声質だけ女性Bに変換する場合、100%Bに似せるだけでなく、Aを30%、Bを70%にしてその場で音質をリアルタイムに混合して音声を発生させることに成功。ディープラーニング(深層学習)で用いられる従来の確率モデル「制限ボルツマンマシン」を音声向けに改良した「適応型制限ボルツマンマシン」を開発し、複雑なモデルを使わずに変換できるようにした。

対データが不要に

これにより、変換元と変換先について同一の発話内容の音声(対データ)を用意する必要がなくなった。対データが不可欠だった従来の複雑な声質変換システムと同等の精度を持たせつつ、利便性は大幅に向上した。対データが不要なため、任意の話者から任意の話者に変換できるという特徴を持つ。

自動採譜や画像処理

AI技術を使い、音楽を聴いて楽譜に起こす、いわゆる「耳コピー」をコンピュータに行わせる「自動採譜」技術を開発した。ピアノやバイオリン、ビオラなど複数の楽器を聴き分けて推定し、自動で楽譜(ピアノロール)を作成できる。画像処理の研究では、手書き文字を認識するモデルや、ぼやけた画像を鮮明に拡大する超解像技術などを開発している。

試作した声質変換システム
提案する声質変換の仕組み

経歴

メディア情報処理や声質変換、深層学習を中心にAIを長く研究。人間の情報処理の仕組みを明らかにし、「人間と共存するシステムを作りたい」と考えている。

研究・産学連携