「人は人工音声を、自然さではなく好みで評価している」
そんな言葉がSNSで話題を集めています(外部リンク)。
話題になっている動画は、歌声合成ソフトウェア「Synthesizer V」を開発するDreamtonics社によるもの。
創設者は、人間の歌唱よりも評価される歌声合成による歌唱を実現したとする一方、聞き手には、技術とは異なる指標が存在することを指摘しています。
技術の到達点に至ってしまった開発者は、どのようにこの課題に立ち向かったのでしょうか。
様々な歌声データベースを利用できる「Synthesizer V」
「Synthesizer V」は様々な歌声データベースを利用できる歌声合成ソフトウェア。
Megpoidや重音テトなどのデータベースが存在しています。
人間らしいリアルな歌声を表現できるよう、最新のAI技術が使用されています。
「人間の歌唱より良い評価」まで至った歌声合成ソフトウェア
Dreamtonics社の公開した動画では「Synthesizer V」の歴史を振り返りながら、新製品「Synthesizer V Studio 2」の機能を紹介。
Dreamtonics社の創設者であるKanruさんは「人間レベルの自然さ」を実現したと表現しています。
自然さの評価には、鑑賞者に合成音声のサンプルと人間の歌手のサンプルをランダムに聞かせて判定。
判定を重ねるうちに「合成サンプルが、人間の歌唱サンプルよりも良い評価を得る」ところまで至ったと説明しています。
好みでは「改良できたかどうかを判断する基準」たり得ない
「ボーカル合成という分野全体の悲願」であると振り返る一方、ここで「研究で得られた意外な結果」にぶつかることに。
「そのサンプルが優れている/自然であると感じた理由」を確認してみると、自然さの評価には「個々人の好み」が大きく影響していることが判明したというのです。
「自然さではなく好みで評価しているとわかったら、 ここからさらに改良するには一体どうすればいいのかと。 本当に改良できたかどうかを(技術的に)判断する基準がありません」
「人間のように」ではなく「自然に聞こえるように」
しかし、人々が好みによって自然さを重視しているとわかったことで、改善できることも見つかったとKanruさんは振り返ります。
特に音楽に重要なジャンルや伴奏、細かい表現などの様々な文脈に着目。
「人間のように」ではなく 「自然に聞こえるように」、コントロールできるよう、「Synthesizer V Studio 2」には様々な機能が搭載されました。
作曲のワークフローには、より好みにあった歌い方を選べるような選択肢を提示する「AIリテイク」機能や、歌い方のニュアンスなどボーカルスタイルを調整できる機能が盛り込まれています。
「人間レベルの自然さ」に到達した合成音声技術。その発展は、理想の歌声とは何なのかをクリエイター側に投げかけるところまで来ているのかもしれません。
この記事どう思う?
関連リンク
0件のコメント