2022.12.16 15:51
0

好きな台詞をキャラに読み上げさせるAI「Creative Reality Studio」使い方

Creative Reality Studio／画像はYouTobe 「Creative Reality™ Studio 2.0 Generative AI | GPT3」のスクリーンショット

イスラエルのIT企業・D-IDが、アバターに文章を読み上げさせるAIサービス「Creative Reality Studio」を12月14日に発表しました。

「Creative Reality Studio」は、Open AI社の自然言語処理モデル・GPT-3とStability AI社の画像生成AIモデル・Stable Diffusionを統合した動画作成サービス。

テキストや音声データを入力するだけで、アバターが顔を動かしながらその文章を読み上げる様子が動画として出力されます。

日本語や英語含む119の言語に対応。写真に映った人物に文章を読み上げさせたり、アバターを画像生成AI機能で生成したりすることも可能です。

今回は「Creative Reality Studio」の使い方を紹介します。

D-ID「Creative Reality Studio」の使い方

1.D-IDのアカウントを開設する

ログイン前の「Creative Reality Studio」／以下、画像は「Creative Reality Studio」のスクリーンショット

「Creative Reality Studio」（外部リンク）をブラウザで開き、画面左下の「Guest ＞ Login／Signup」を選択します。

D-IDのログイン画面

画面中央右あたりの「Sign up」を選択。メールアドレスを入力、もしくはGoogle・LinkedInのアカウントを連携し、パスワードを指定。

「term of service（利用規約）」と「privacy policy（プライバシーポリシー）」を確認して、チェックボックスにチェックを入れ、D-IDのアカウントを作成します。

登録したアドレスに届いたメールよりアカウントを確認したら、D-IDのアカウント開設は完了です。

2.「CREATE VIDEO」を選択

ログイン後の「Creative Reality Studio」画面

再び「Creative Reality Studio」（外部リンク）をブラウザで開き、右上の「CREATE VIDEO」を選択します。

3.アバターの選択

Choose a presenter

遷移した画面がこちら。「Choose a Presenter」では、D-IDが用意した人物が選べるほか、「+ADD」から画像をアップロードできます。

読み上げ動画をうまく生成するための画像の条件はこちら。

【最適な結果を得るための画像条件（編集部訳）】

◯ミディアムショット（半身のみの写真）、正面を向いた写真
◯ニュートラルな表情、口を閉じていること
◯画像内に写っている頭部のサイズ一定（200X200 ピクセル）以内であること
◯良好で安定した照明
◯サイズ - 最大5Mb
×顔が隠れていないこと「Creative Reality Studio」

Generate AI Presenter

「Generate AI Presenter」では、D-IDが用意したキャラクターが選べるほか、画像生成AIによってテキスト（プロンプト）からキャラクターを生成できます（フリートライアル版では15回まで）。

キャラクターを生成する際は、「A portrait of」に続くテキストボックスに英語でプロンプトを入力します。

4.読み上げる文章と声を選択

Type Your Script／画像はD-ID「Creative Reality Studio」のスクリーンショット

読み上げさせる人物／キャラクターが決まったら、画面右側のブロックに読み上げさせたい文章を入力。

「Type Your Script」と表示されている入力フォームに読み上げさせたいテキスト（3875文字以内）を入力し、言語（Language）、声の種類（Voices）、そのスタイル（Styles）を選択すると準備が完了。

「Upload Voice Audio」からは、好きな音声データをアップロードすることもできます。