
2024年よりDIMEにて連載中の「マンガでわかる生成AI」の原作を担当している、アステリア株式会社、および生成AI協会(GAIS)のエバンジェリスト 森一弥です。
本コラムは読者の皆さんにとって身近な生成AIツールや新機能を、実際に森が触ってみてご紹介するコーナー。今回はAIを活用した音声作成ツール「ElevenLabs」を触ってみました。
ElevenLabs ってなに?
前回の記事では写真の人物を喋らせるアバター動画が作成できる「Akool」についてご紹介しました。引き続き、Akoolを使って最新のAI動向を解説する動画を作成して公開していますが、実際に使っていると、やっぱり多少の不満は出てくるものです。
その中のひとつが、音声。
筆者が実際に生成した動画はこちら。 “AI森一弥” が喋ってます。
Akoolは日本語にも対応しており、録音した自分の声からクローンを作成し、あらかじめ用意した原稿を読んでくれるのですが、なぜか漢字の読み方が違っていたり、単語のイントネーションがネイティブな日本語とは異なっていたりする箇所がいくつか見受けられました。これ、地味にイライラさせられるんですね……。
一方、今回ご紹介するAIを使った音声作成ツール「ElevenLabs(イレブンラボ)」は『最もリアルな音声AIプラットフォーム』と謳っているとおり、業界でもトップクラスの「自然な音声」を誇るサービスとして有名です。最近では、ゲームなどの制作でも使われるほどの品質だとか。以下の記事によると「FORTNITE」(フォートナイト)でダースベーダーの声として使われた実績もあるようです。
というわけで今回は、無料プランで作成できる範囲内の音声で、色々な日本語を試してみようと思います。

無料会員でできる範囲でもその流暢さは体験できると思います。前述の通り、無料だと声のクローンはできないのと、商用利用は不可なので要注意。文字数の制限が厳しかったりもするので、仕事で利用するつもりなら、一度試した上で有料版に移行しましょう。
ログインしなくてもお試しできる
「ElevenLabs」は、会員登録などをせずにトップページから試すことができます。トップページに入力されているこちらのテキスト、「PLAY」ボタンを押すだけで早速読み出してくれますよ。
カッコ書き部分([whispers]など)で読み方をある程度カスタマイズできるようですが、日本語だとあまり大きく変化はみられないようですね。ただ、読み方自体はだいぶ流暢に感じました。もし読んでいる途中で音声が切れてしまうようであれば、最後まで行ってから再度「PLAY」ボタンを押してみると切れ目なく読んでくれます。これは生成に多少の時間がかかって「再生」に追いついてしまったためと考えられます。実際に使う場合は生成したものをダウンロードすることになると思いますので、問題ないでしょう。
サインアップ(無料)してできること
さて、音声読み上げのクオリティを体験したところで、次はサインアップ(会員登録)してみましょう。グーグルのアカウント、またはIDパスワードによる認証を選択します。
いくつかのアンケートに答えながら、設定を進めていきます。
最後にプランを選択するのですが、無料のコースが表示されていないので、「無料登録はできないのか?」と思われがちです。ページ下部に「スキップ」ボタンが表示されていますので、とりあえず試してみるならこちらを選択。
左にメニューが表示され、「プラットフォーム切り替え」の説明が出ました。
AIによる音声作成などを行うのは「クリエイティブプラットフォーム」です。「会話型AI」という別の機能もあるので、間違えてそちらを選んだ場合は切り替えてください。
テキスト読み上げを使ってみよう
サイドメニューから「ホーム」を押すと、色々なツールを選べるようになります。
今回は自分が入力した文字を自然に読み上げてもらいたいので、ホームから「インスタントスピーチ」を選ぶか、または左のメニューから「テキスト読み上げ」を選んでみましょう。
中央の入力欄に、自分が読ませたいテキストを自由に入力し、右側のサイドメニューで設定を行います。「ボイス」メニューからは読みあげてくれる声を変更することもできます。「ボイスライブラリーを探索」を押すと、さまざまなライプのサンプルから、使いたい音声を選ぶことができます。
あまりにもたくさんのサンプルがありますので、「フィルター」で絞り込むのがおすすめです。
「言語」を日本語にするとより自然な声になってくれそうですね。さらに、「アクセント」から方言のアクセントを選ぶこともできるようになっていました。ただ、現状、日本語の声はそれほど多くないようで、絞り込みすぎても出てきません。このあたりは今後に期待したいところです。
お好みの声を「テキスト読み上げ」に設定すると、色々な文章をすらすらと読みあげてくれます。
まとめ:ボイスチェンジャーや、音声の雑音を消す機能も
今回は「ElevenLabs」をご紹介しました。無料でも「AI音声の自然さ」をしっかり体験できるのが魅力のツールですが、声クローンや商用利用など、有料プランにするとできることがぐっと増えるので、仕事などで使うシーンがありそうな方はぜひチェックしてみてください。
今回ご紹介した「テキスト読み上げ」以外にも、例えば「ボイスチェンジャー」などの機能も搭載されています。これは自分の声で録音した内容を、AIボイスで読んでもらうことができるというものです。さらに「ボイスアイソレーター」機能を使うと、音声の雑音を消してくれたりもしてくれます。
また「ダビング(吹き替え)」と呼ばれる、既存の動画を指定した言語で吹き替えしてくれるというものも。日本語で作った製品紹介ビデオを外国語でも出したいなどの場面でかなり役に立ちそうですよね。
また、希望するテイストの音楽を作ってくれる機能もあります。こんな感じの音楽が聞きたい、といった曖昧な指示でも作ってくれます。
音声にまつわると、様々なツールが揃っているプラットフォームともいえる「ElevenLabs」。AIを使ってテキストを作成する人は多いと思いますが、声や音声もAIに任せる時代がやってきそうです。会員登録せずに無料で試すことができるので、是非チェックしてみてくださいね。
森 一弥(もり かずや) https://twitter.com/dekiruco
アステリア株式会社 ノーコード変革推進室 エバンジェリスト。 テレワーク推進の波に乗り、某有名SFアニメの聖地である箱根に移住。アニメや漫画、甘いものとかっこいいクルマをこよなく愛す、気ままな技術系エバンジェリスト。 AIやブロックチェーンなど先端技術とのデータ連携を得意とし、実証実験やコンサルティングの実績も多数。見聞きしたことは自分でプログラミングして確かめた上でわかりやすく解説することが信条。 現在は AI や IoTなどの普及啓発に努め、生成AI協会(GAIS)のエバンジェリストとしても活動中。