学会名: The 10th ISCA Speech Synthesis Workshop (SSW10)
タイトル:Implementation of DNN-based real-time voice conversion and its improvements by audio data augment
著者:Riku Arakawa, Shinnosuke Takamichi and Hiroshi Saruwatari
従来の音声変換は変換処理に時間がかかるためリアルタイム変換は難しく、音声通話やライブ配信などリアルタイム性が求められる用途での活用は困難でした。
本システムはDNN(Deep Neural Network)を用いた独自の変換処理により遅延を小さく抑え、リアルタイム変換を実現いたしました。
また、こちらの技術は日本では日本音響学会が開催した「2019年春季研究発表会」(2019年3月5~7日、電気通信大学)にて発表しております。
The 10th ISCA Speech Synthesis Workshop (SSW10)について
The 10th ISCA Speech Synthesis Workshop (SSW10)は、音声合成技術に関わる学会です。オーストリアのグラーツで開催される国際音声コミュニケーション協会INTERSPEECH 2019カンファレンスのサテライトイベントとして2019年9月20〜22日にオーストリアのウィーンで開催されます。
リアルタイム音声変換について
この技術では、マイクに向かって話す声を特定の人の声にリアルタイムで変換します。従来は、音声変換の処理に時間がかかるためリアルタイムでの音声変換は難しく、イベントやライブ配信などリアルタイム性が求められる場面での活用は困難でした。
今回のシステムでは1-2時間程度の収録で得られる音声データを元に、機械学習を用いた独自の変換処理により遅延を小さく抑え、人間が音声遅延を認識する約70msを下回る約50msでの音声変換を実現しました。
SSW10にて発表するリアルタイム変換技術は,音声変換部分を軽量化したことで一般的なノートパソコンで十分に動作が可能です。更に,その変換精度を高めるため,主に画像生成等において成果を上げている「GAN(Generative Adversarial Network)」と呼ばれる生成モデルを応用をすることも可能です.GANを用いた音声変換法については,後述する社会連携講座において既に発表しております
※音響機材の関係での遅延は発生いたします。
社会へのビジネス展開を目指して、実証実験を実施
DMM.comでは猿渡研究室と協力し、今回の技術を社会に普及させ、ビジネスとして活用するための取り組んでおります。
その実証実験の一環して、日本テレビ放送網株式会社(本社:東京都港区)が、開催したイベント「超汐留パラダイス」の企画である『HUNTER×HUNTER』のPRブースにて“リアルタイム音声変換”技術が活用されました。
DMMでは、今後も引き続き、本技術を発展させ、エンターテイメント領域だけではなく、業種業界に限らず、社会における実用化に向けて取り組んでまいります。
東京大学大学院情報理工学系研究科との社会連携講座について
DMMは、2016年に東京大学大学院情報理工学系研究科に設置された社会連携講座「時空間解析技術の応用研究」において、共同研究に取り組んできました。
当社会連携講座では、高速画像処理、音声音響信号処理、触覚情報処理、VR、ネットワークコンピューティング等の技術基盤の上に、世界最先端の時空間信号の解析・活用技術を開発しており、2019年8月より第2期として継続しています。
DMMはそんな世界トップクラスの技術をこれまで培ったビジネスの知見を基にエンターテイメント領域を中心に、社会へのビジネス展開し、テクノロジーからの事業創造を目指しています。