こんにちわ!
3D・映像編集者 & ブロガーのデリュージョン飯塚と申します!
今回は!
ElevenLabsの使い方を、
画像付きで一通り解説していきます。
- ElevenLabsを使い始めたばかりで、操作の流れを知りたい方
- テキスト読み上げ以外の機能も使いこなしたい方
- ボイスクローンやサウンドエフェクトの作り方を知りたい方
この記事を読めば、
ElevenLabsの主要な機能の使い方がひと通りわかるようになります。
私は普段、映像制作の仕事をしていて、
その中でナレーションや効果音の生成にElevenLabsを使っています。
声質がとても好みで、特にナレーション系にはもってこいのツールです。
それではいきましょう!
目次
ElevenLabsの使い方一覧
主要な機能を抜粋して、
機能別に解説していきます。
テキスト読み上げ
まずはElevenLabsのメイン機能、
テキスト読み上げから解説します。

左のメニューの「テキスト読み上げ」からアクセスできます。

基本的な使い方はシンプルで、
真ん中の入力欄に読み上げたいテキストを入れて、
右側の「ボイス設定」で声を決めるという流れです。

スピーカー(読み上げる声)を変えたいときは、
右側の「ボイス」の箇所をクリックします。

すると、選べるボイスがずらっとたくさん出てきます。

上部の「言語」「アクセント」「カテゴリー」「性別」「年齢」といったフィルターで、
絞り込んで検索することもできます。
今回は、日本人男性のOtaniさんという方にしゃべってもらいましょう。

モデルはこの「Eleven v3」がかなり良いので、
個人的にはおすすめです。
今回はこれを使ってみます。

試しに、こんな文章を読み上げてもらいましょう。
テキストを入力したら、
「音声を生成」をクリックします。

生成が終わると、
こんな感じでテイク1・テイク2と2つの候補を出してくれます。
好きな方を選んでダウンロードする、
という流れですね。
(※候補の数はバージョンによって異なる可能性があります。)
結果はこちらです。
かなりのクオリティ。
息遣いとか間とか、
プロのナレーターさんのような、
とても自然な仕上がりになっていますよね。
ちなみに消費したクレジットは74でした。
これはシンプルに74文字なので、
74クレジット消費したということになりますね。

これまで読み上げさせた履歴は、
右上の「履歴」というタブから確認できます。
ここからは、いつでもダウンロードもできますね。

また、読み上げさせたいテキストには、
こんな感じで強調のタグを入れることもできます。
これは読み上げ内容に感情を乗せたり、
アクセントを加えたりできる機能ですね。
| 記述 | 日本語訳 |
|---|---|
| [happy] | 嬉しい・楽しげに |
| [sad] | 悲しげに |
| [excited] | 興奮気味に |
| [angry] | 怒って |
| [whisper] | ささやき声で |
| [annoyed] | イライラして |
| [appalled] | ぞっとして・愕然として |
| [thoughtful] | 考え込むように |
| [surprised] | 驚いて |
| タグ | 日本語訳 |
|---|---|
| [laughing] | 笑いながら |
| [chuckles] | くすくす笑う |
| [sighs] | ため息 |
| [clears throat] | 咳払い |
| [short pause] | 短い間 |
| [long pause] | 長い間 |
| [exhales sharply] | 鋭く息を吐く |
| [inhales deeply] | 深く息を吸う |
公式ドキュメントに一例が記載されているので、
参考にしてみてください。
今回は[clears throat]を入れて
ちょっとした咳払いを途中に挟んでみました。
出来上がった結果がこちらです。
10秒あたりで咳払いしているのがわかりますね。
とまあ、こんな風に細かいカスタマイズもできるわけですね。
ただ、この強調タグについては、
絶対に反映されるというわけではありません。
わりと文脈と合っている場合にのみ適用される、
という感じですね。
例えば、とても明るい文章なのに悲しみながら喋らせるといったことをすると、
そんなにうまくいかないことも多いです。
テキスト読み上げについての解説は以上です。
ElevenLabsのメイン機能なので、
少し詳しく解説してみました。

色々やってみてうまくいったコツとしては、
一番最初の文字をひらがなにした方がいいかなと思いました!それをすると自然なスタートになります。
ボイスクローン
続いては、ボイスクローンの使い方について解説します。
これは名前の通り、
オリジナルのナレーターを作っちゃおうという機能ですね。

左のメニューの「ボイス」を開いて、
右上の「ボイスを作成」をクリックしてみます。

すると、ボイスをどんな風に作るのかというポップアップが表示されます。
いろいろあって、
例えば一番上の「ボイスデザイン」なら、
テキストプロンプトからどういう声にしたいかを伝えて作るやつですね。
今回は、この「インスタント ボイスクローン」を使ってみたいと思います。
これは、自分の声を入力することでオリジナルのボイスが作れる機能です。
下の「プロフェッショナル ボイスクローン」でもいいんですが、
こちらはCreator($22/月)プランからできる機能なんですよね。
今回はStarter($6/月)プランでもできるやつからやってみたいと思います。

方法はシンプルです。
このような画面になるので、
自分の音声を録音するか、
音声ファイルを入れるだけですね。
こんな感じで録音してみました。

音声を入れられたら「次へ」をクリックします。
「より良いクローンのために録音を追加し続ける」と出ているので、
もっと精度を上げたい方は、
10秒ぐらいの音声ではなく、
たくさん音声を入れた方がいいかもしれません。
一旦これでやってみます。

すぐに音声は生成されます。
ここでプレビューもできるんですが、
適当に情報を入力して「声を保存」をクリックします。
これだけで、ボイスの登録は完了です。

では、作ったボイスを先ほどのテキスト読み上げで使ってみましょう。
「ボイス」のところを、
自分で作ったものに切り替えるだけですね。
出来上がった結果がこちらです。
まあ、そこそこ精度よく作れたんじゃないかなと思います。
ちょっと自分の声なので、
いまいち判断しづらいんですけども笑
インスタントのほうは簡易的なものなので、
もっと声を似せたい場合は
プロフェッショナルクローンを使う必要がありますね。
サウンドエフェクト
続いては、サウンドエフェクトの使い方です。
これはつまり効果音ですね。
いろんな動画編集などで使える効果音を、
プロンプトから生成できる機能です。

左のメニューの「サウンドエフェクト」を開きます。

下のプロンプト欄に、
どんな効果音を作りたいかを打ち込んでいきます。
ただ、これは英語じゃないとうまくいかないんですよね。
なので、適当なAIでプロンプトを英語にしてもらってから入力する方がいいのかなと思います。

Sparrow chirping in a quiet forest.
訳:静かな森の中で、雀がさえずっている
こんな感じのプロンプトで作ってみました。
下の設定は画像の通りで、
「ループ」させたり、
長さを変えたりできます。
もちろん、長さを変えると消費クレジットは増えますね。

ちなみに、ループあり・10秒だと33クレジットを消費しました。

生成が終わると、
こんな感じで4つの候補を出してくれるので、
そこから好きなのを選ぶという感じですね。
出来上がった結果はこちらですね。
いい感じかなと思います。
ループさせられるというのが、
非常に強いですね。
ただ、ぶっちゃけ私はこのサウンドエフェクトをAIに作らせるというのは、
あんまり使っていないんですよね。
というのも、有料プランに入っていたら、
ここのサウンドエフェクトは公開されているものがダウンロードし放題なんです。

ずらっと並んでいるものは、
他のユーザーが作ったものなんですが、
これがダウンロードできます。
しかも、クレジット消費はなしです。

もちろん検索もできますし、
ループありかなしかも選べます。
「期間」と書いてあるところは効果音の長さで、
そういった設定もできますね。

ここでジャンルを絞って検索もできますし、
お気に入り登録もできます。
まあ、普通の効果音のストックサイトと同じような感じで、
ダウンロードし放題という感じです。
ということで、まとめると
サウンドエフェクトは効果音を作れる機能で、
自分でプロンプトから好みのサウンドエフェクトを作れます。
ただ、それってクレジットも消費しますし、
割といいのが出てくるまで時間がかかったりするんですよね。
個人的には、有料プランならダウンロードし放題なので、
そこから探していいのを見つける方が早いのかなと思います。
画像 & ビデオ生成
ElevenLabsには、
画像やビデオを生成する機能もあります。

左のメニューの「画像 & ビデオ」を開きます。
他の機能と同じように、
プロンプトを英語で打ち込んで作るという感じですね。
画像サイズやAIモデル、
解像度なども選択可能です。

Luxurious café lounge, a cup of coffee with latte art on a marble table, warm soft lighting.
訳:高級感のあるカフェラウンジ、大理石のテーブルにラテアートのコーヒー、温かく柔らかな照明。
試しに、こんな画像を作ってみました。

結構いいですよね。
こんな感じで、
ElevenLabsはナレーション生成だけじゃなくて、
こういった画像生成もできます。
消費クレジットは739でした。
やはり、テキスト読み上げなどに比べたら多めではありますね。
ボイスアイソレーター
続いては、ボイスアイソレーターの使い方です。
これは、バックグラウンドの雑音などを消してくれる機能ですね。

左のメニューの「ボイスアイソレーター」を開いて、
音声ファイルを入れるだけですね。
例えばこの音声、
背景にちょっとガヤガヤとした音声が入り込んじゃっていると思います。
これを消して、
私の声だけを抜き取るみたいなことができるということですね。
やってみます。
結果がこちらです。
しっかりとクリアに、
私の音声だけが切り取られているかなと思います。
消費クレジットは150でしたね。
これも、動画の長さやファイルの大きさによって変わってきます。
ボイスチェンジャー
ボイスチェンジャーは、
その名の通り、
何か音声ファイルを入れて、
それを別の登録しているスピーカーの声に変えるというやつですね。

左のメニューの「ボイスチェンジャー」を開きます。
例えば、この渋い声を別のボイスに変えてみたいと思います。

極端に、女性の声に変えてみました。
こんな感じで、
性別を超えてもボイスのチェンジができるという感じですね。
元のオリジナルの音声がちょっと早口だったので、
出来上がった音声も早口になっていますね。
そのまま、声の質だけを変えるという機能ですね。
ミュージック
先ほど紹介したサウンドエフェクトと同じように、
バックグラウンドのBGMを作れる機能もあります。

こちらもプロンプトで何か作ることもできますが、
公開しているものがダウンロードし放題なので、
そっちの方が使えますかね。
スピーチ to テキスト(文字起こし)
ElevenLabsには、
文字起こしの機能もあります。
音声ファイルなどを入れてあげると、
テキストを出してくれるというやつですね。

左のメニューの「スピーチ to テキスト」を開いて、
右上の「ファイルを文字起こし」をクリックします。

これが結構いい機能で、
音声ファイルをアップロードしてもできますし、
ここで録音してそれを文字起こしすることもできます。
さらに、「YouTube」のタブから、
YouTube動画を文字起こしすることもできるんですよね。これは便利。
今回は試しに、
この音声を文字起こししてみましょう。

できました。
しっかりと文字起こしできていますね。

文字起こししたデータは、
テキストやPDF、DOCX、HTML、JSONなど、
様々な形式でダウンロードすることができます。
公式ドキュメントも活用しよう

各メニューにおいて、
右上に「ドキュメント」というところがあります。
ここから、その機能の使い方を詳細に調べることができます。
分からなくなったりしたら、
ぜひ活用してみてください。
こういった配慮が、
素晴らしいなと思います。
まずは無料プランで試してみよう
ElevenLabsは無料でも1万クレジットが配られて、テキスト読み上げなどができます。
まだ使った事がない方は無料プランから試してみましょう。
まとめ

- ElevenLabsの基本はテキスト読み上げで、真ん中に文字を入力して右でボイスを決めるだけ
- ボイスクローンやサウンドエフェクト、文字起こしなど、音声まわりの機能が一通り揃っている
- 無料プランでも1万クレジットが配られるので、まずは気軽に試せる
いかがだったでしょうか。
それでは今回の記事は以上です。
デリュージョン飯塚でした。
※当サイトは、広告主から支払われる広告収入を主な収入源として運営を行っています。
※当サイトの記事では、商品・サービスの紹介に広告主のアフィリエイト広告を利用しています。
※記事で紹介した商品・サービスを購入すると、広告主から当サイトに報酬が支払われることがあります。
インターネット上の広告表示(消費者庁)
インターネット広告倫理綱領及び掲載基準ガイドライン
IzukaEffects 
