日本テレビ“超汐留パラダイス”における『HUNTER×HUNTER』PRブースにて、 DMMと東京大学大学院情報理工学系研究科猿渡研究室が開発した “リアルタイム音声変換”が採択｜プレスリリース

参加者はブースにてアニメの映像に合わせてセリフを話すと、自分の声が『HUNTER×HUNTER』のキャラクターの声に変換されてスピーカーから流れ、なりきりアフレコ体験ができます。

DMMは今回の取り組みを皮切りに、”リアルタイム音声変換”の技術をエンターテイメントを始め、様々な用途での展開を進めていきます。

リアルタイム音声変換とは、機械学習を用いてマイクに向かって話す声を特定の人の声にリアルタイムに変換する技術です。

プログラムの中では、人の声を3つのフェーズにて処理し、特定の人の声にリアルタイムに変換します。

人間の声を”声の高さ”、”声色”、”声のかすれ具合”の要素に分けて分析します。

分析した声の要素を事前に生成した声の変換モデルに従って、機械学習を用いて人間の声の要素を変換します。

変換した声の要素、”声の高さ”、”声色”、”声のかすれ具合”を再度統合し、音声を生成します。

従来は、音声変換の処理に時間がかかるためリアルタイムでの音声変換は難しく、イベントやライブ配信などリアルタイム性が求められる場面での活用は困難でした。

今回のシステムでは1-2時間程度の収録で得られる音声データを元に、機械学習を用いた独自の変換処理により遅延を小さく抑え、人間が音声遅延を認識する約70msを下回る約50msでの音声変換を実現しました。

音声変換モデルの機械学習には、変換精度を高めるため、主に画像生成等において成果を上げている「GAN(Generative Adversarial Network)」と呼ばれる生成モデルと同様の技術を応用しております。

また、音声変換部分はシステムを軽量化したことで一般的なノートパソコンで十分に動作が可能となりました。

※今回のシステムでは音響機器の影響で遅延が発生いたします。

DMMは、2016年に東京大学大学院情報理工学系研究科に設置された社会連携講座「時空間解析技術の応用研究」において、共同研究に取り組んできました。

当社会連携講座では、高速画像処理、音声音響信号処理、触覚情報処理、VR、ネットワークコンピューティング等の技術基盤の上に、世界最先端の時空間信号の解析・活用技術を開発しています。

DMMはそんな世界トップクラスの技術をこれまで培ったビジネスの知見を基にエンターテイメント領域を中心に、社会へのビジネス展開し、テクノロジーからの事業創造を目指しています。

超☆汐留パラダイス！-2019SUMMER-

期間:2019年7月26日(金)〜8月25日(日)

時間:10:30〜18:00 ※一部21:00まで

場所:汐留・日本テレビ及び汐留公共地下歩道

詳しくは、公式サイトをご参照ください。

日本テレビ“超汐留パラダイス”における『HUNTER×HUNTER』PRブースにて、 DMMと東京大学大学院情報理工学系研究科猿渡研究室が開発した “リアルタイム音声変換”が採択