【速報】セール中のショップまとめ記事はこちらから

【比較検証】インスタントvsプロフェッショナル ElevenLabsのボイスクローンの違いは?【サンプル有り】

記事内に広告を含む場合があります

こんにちわ!
3D・映像編集者 & ブロガーのデリュージョン飯塚と申します!

今回は!
ボイスクローンの比較についてです。

この記事はこんな人におすすめ
  • ElevenLabsで自分の声のボイスクローンを作ってみたい方
  • インスタントとプロフェッショナルのどちらを使えばいいか迷っている方
  • 2つの再現度の差を、実際のサンプル音声で確かめたい方

この記事を読めば、
インスタントとプロフェッショナルの作り方の違いと、
出来上がる声の再現度の差がひと通りわかります。

この記事を書いた人

デリュージョン飯塚

  • 3Dアーティスト・講師
  • 映像編集者
  • YouTuber
  • ブロガー・Web製作者

Twitter

3Dアート

IzukaEffects

ドラクエ

Game

お笑い

私は普段、映像制作の仕事をしていて、
その中でナレーション用にElevenLabsを活用しています。

それではいきましょう!

ボイスクローンとは?

そもそもボイスクローンとは何かという話なんですが、
ボイスクローンはElevenLabsの機能の一つで、自分のオリジナルの音声を作る機能です。

クローンと言っているとおり、
本当に自分の声を再現して作ることができます。

そのボイスクローンの作り方に2種類あって、
それが「インスタントボイスクローン」「プロフェッショナルボイスクローン」です。

特徴
インスタントボイスクローン数十秒の音声モデルから作る
・簡易的
・スタータープラン($6/月)から使える
プロフェッショナルボイスクローン・30分 ~ 2時間の音声モデルから作る
・かなり高品質
・クリエータープラン($22/月)から使える

違いはこんな感じ。
なお、無料プランではどちらも使えません。

飯塚
飯塚

録音方法の違いや、
どのくらいボイスクローンの質に差が出るのかを、
この記事では見ていきます!

インスタントボイスクローン vs プロフェッショナルボイスクローン

これから比較を行っていきますが、
とりあえず私の元の声は、上の動画(私のオンライン講座の動画)のような感じです。

この声にどれぐらい近づくのかを、
それぞれで見ていきたいと思います。

インスタントボイスクローンで音声モデル生成

Screenshot

ボイスクローンは、
左のメニューの「ボイス」から作ることができます。

画面右上の「ボイスを作成」をクリックしましょう。

Screenshot

作成メニューが出てくるので、
「インスタント ボイスクローン」をクリック。

Screenshot

音声をアップロードする画面になるので、
ここに10秒程度の自分の音声をアップロードしましょう。

もしくは、「音声を録音する」からその場で録音することもできます。

今回は、この音声を入れてみます。

Screenshot

音声を入れられたら「次へ」をクリック。

飯塚
飯塚

もっと精度を上げたい方は、
たくさん音声を入れた方がいいかもしれませんが、
一旦これでやってみます。

Screenshot

あとは名前などの情報を入力して、
「声を保存」をクリック。

これだけで、インスタントボイスクローンは完了です。
早いですね。

では、作ったボイスをテキスト読み上げで使ってみましょう。

「テキスト読み上げ」の画面で、
「ボイス」を自分で作ったものに切り替えるだけです。

Screenshot

出来上がった結果がこちらです。

そんなに悪くはないものの、
めちゃくちゃそっくりというわけではないかもしれないですね。
※自分の声なのでいまいち判断しづらいですが!

プロフェッショナルボイスクローンで音声モデル生成

では続いて、プロフェッショナルボイスクローンで作ってみましょう。

Screenshot

先ほどと同じく「ボイスを作成」から、
今度は「プロフェッショナル ボイスクローン」を選びます。

Screenshot

こんな感じの案内が出るので、
「新しいクローンを作成」をクリック。

Screenshot

うまく作成するためのヒントなども出てきます。
結構手厚いですね。

Screenshot

ボイスクローンの作成画面はこんな感じです。

まず左側で、自分でわかるように音声名を決めて、
言語を選び、あとは録音していくという流れですね。

もちろん録音ではなく、
音声データのアップロードでもOKです。

とりあえず、まずは録音してみます。

Screenshot

このプロフェッショナルボイスクローンは、
インスタントが10秒ほどで終わっていたのに対して、30分から2時間ぐらいの音声が必要になります。

とにかく長いんですよね。

なので、録音しやすいように台本を用意してくれています。
これが「スクリプト」と呼ばれるものです。

Screenshot

「スクリプトを選択」を開いてみると色々な種類があるので、
今回は「ナレーション」を見てみましょう。

Screenshot

「Audiobook - Non-fiction」というジャンルを見てみます。

Screenshot

すると、この台本を読んで録音していいよ、
というスクリプトが出てきます。

これを読んで30分以上録音していきたいと思います。

Screenshot

どんどん録音結果を入れてみました。
(疲れた^^;)

途中で気づいたんですけど、
左下にラベルとして、どういうアクセントか、性別、年齢などを入れるところがあるので、
そういうのも入力しておきました。

Screenshot

さらに2時間以上録音し続けるのはめちゃくちゃ消耗するなと思ったので、
過去の自分のオンライン講座のデータをどんどん入れていきました。

そのデータの中にはBGMなどがなく、
ひたすら私が解説しているだけの動画だったので、
これは使えるなと思ってそうしました。

長時間録音はやっぱりきついと思うので、
過去に自分が喋ったデータがある方は、それを入れると良いと思います。

とりあえず45分くらい用意できたので、
これで「次へ」を押してやってみましょう。

Screenshot

ボイスクローンを準備中、
という画面になりました。

自分のボイスモデルができるまで、
プロフェッショナルの場合は2〜6時間くらいかかるとのことなので、気長に待ちます。

Screenshot

進捗は、「ボイス」「自分の音声」から見ることができます。

Screenshot

画面を開きっぱなしで待っていたら、
こんなポップアップが出たので、どうやら完成したっぽいです。

Screenshot

では、プロフェッショナル飯塚ボイスで生成してみたいと思います。

結果がこちらです。
めちゃくちゃ自分の声すぎてビビりました。

さすがに
プロフェッショナルボイスクローンの方が、より似せることができますね。

結果比較

元の声(オリジナル)

インスタントボイスクローンの結果

プロフェッショナルボイスクローンの結果

インスタントボイスクローンも頑張っていますが、
さすがにプロフェッショナルボイスクローンの結果の方が良いですね。

与えられる声のサンプルが、
インスタントは数十秒なのに対してプロフェッショナルは30分から2時間なので、
結果が良くなるのは当然という感じですね。

クリエータープランが初月半額キャンペーン実施中

記事の冒頭でもちらっと紹介したんですが、
現在クリエイタープランが初月半額キャンペーンをやっています。

今回やったプロフェッショナルボイスクローンは、
このクリエイタープランからしか使えないので、ぜひ試してみてはいかがでしょうか。

この初月半額は月払いのときに使えるので、
1ヶ月使ってみて、やっぱりあんまり使えないなと思ったら、
一つ下のスタータープランにしたり、無料プランに戻ったりもできます。

キャンペーンのおかげで、
とりあえず1ヶ月試しやすくなっているかなという感じですね。

まとめ

  • インスタントは10秒程度の音声、
    プロフェッショナルは30分〜2時間の音声から作る
  • インスタント → スタータープラン
    プロフェッショナル → クリエイタープラン
    から使える!無料プランは不可!
  • 再現度はプロフェッショナルボイスクローンに軍配が上がる
  • 過去に喋った音声データがあれば、
    プロフェッショナルの長時間録音の負担を減らせる

いかがだったでしょうか。

手軽さならインスタント、
再現度を求めるならプロフェッショナル、という住み分けですね。

それでは今回の記事は以上です。
デリュージョン飯塚でした。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です