名探偵コナンのリアルタイム音声変換機のリアル

リアルタイム音声変換区

これで声優さんが引退しても大丈夫?

東京大学大学院情報理工学系研究科システム情報学専攻の猿渡研究所は、DMM.comと進める社会連携講座において、リアルタイムで別人の声に変換できる音声変換システムを開発した。

日経エレクトロニクス

いよいよ、名探偵コナン君が小五郎のおっちゃんの声で事件を解決する、あのシーンが現実のものになろうとしている。
そう、リアルタイム音声変換機だ。
うわー、わくわく。
これって、声優さんが引退しても声の交代なくいけるってこと?
野沢雅子さん128歳までやるって言ってたけど、引退早まるかもね。

深層学習で即時性と制度向上

今までは音声変換にタイムラグがあったけれど、DNN(Deep Neural Network):(人間の神経細胞を模したシステム)を用いて誤差を最小限に抑えたという。
分析、変換、生成の3段階で成し遂げた。

1.分析

音声分析

入力した話者の音声分析をする。
声帯、顎の筋肉、骨格などの身体情報と音声を細かく、1語から、めちゃくちゃ細かく分析する。

2.変換

分析した話者の声と、変換する人の声を変換していく。
この時、GAN(Generative Adversarial Network、敵対的生成ネットワーク)と呼ばれる生成モデルと同様の技術を応用した。
これ、音声で騙せるまで、変換音声を生成していくもの。
2人の音声の不一致箇所のみ変換していく。

3.生成

後はひたすら生成するだけ。人間にリアルタイムに聞こえる誤差に修正したら、音声変換の出来上がり。
同性だと声のトーンが似るので精度が高いそうだ。

課題は「ノイズ」・・・これなあ

活用法と懸念点

バーチャルYou Tuber=>VTuberではバーチャルキャラになるため、ボイスチェンジャーの需要は高い!

あと、外人の英語を自分の声に換えたりできるのも面白い。

懸念点は、「俺おれ詐欺」などに使われること。
まったく、技術と言うのはいつも「光と影」がある。
影の部分は「信用スコア」に響くようにすることで防げる。
これもテクノロジー。

好きな女の子の声で自分に語りかけるとか、危ない人間も増えるだろう。

Technology Community Kansai

Follow me!