発声のパフォーマンスは「AI > 99%の一般人」!? 音声サービス「CoeFont」が実現する、"クリエイティブの開放"とは
アニメやゲームといったクリエイティブ産業に欠かせないのが、登場するキャラクターに命を吹き込む「声」。
またオーディオブックや駅での音声案内なども一般化しており、音声の用途は年々多様になっています。
しかし声の聞きやすさはアクセントや抑揚の調整など話者の技術に依存しており、高クオリティの「声」を収録して利用するには、数十万はかかってしまいます。
AI音声合成サービス「CoeFont STUDIO」は、そんな高クオリティの「声」を誰でも簡単に使えるようにするサービスです。
「すべてのクリエイターに声のフォントを届ける」というキャッチコピーの通り、無料で合成音声を使用できるのが特徴です。 音声の「フォント」も「アリアル」「ミリアル」などから選択可能で、音声のクオリティも非常に高く、SNSなどではリリース直後から話題沸騰でした。
本記事では、そんなCoeFontの制作秘話や今後の展望について、現役東工大生の株式会社Yellston(現:株式会社CoeFont)代表取締役社長、早川尚吾さんにお話を伺いました。
六法全書を音読させる!?音声合成サービス「CoeFont STUDIO」の使われ方
CoeFont、すごく話題になっていますよね。SNSでも大反響で。
拡散もそうでが、こんなに多様な使い方をされるとは思ってもいませんでした。 ローンチ前はせいぜいボイスコミックとかフリー実況、本の読み上げに使われるくらいだと考えていましたし。 それがフタを明けてみると、実況に加えて、歌を歌わせたり、本は本でも六法全書を読み上げさせて勉強に活用していたり。
CoeFont STUDIOは「声をフォントのように使う」ことを目指しているので、実際に色んな用途に使ってもらえてすごく嬉しいです。
CoeFontSTUDIOがこれだけ人気になった秘訣はなんなんでしょうか?
手軽さと音声の自然さではないでしょうか。 手軽さという面だと、CoeFont STUDIOではHPに行っていただければすぐに音声を作ることができます。 音声の合成に費用もかかりませんし、これから先も「アリアル」と「ミリアル」に関しては無料で提供し続けます。
ほんとに10秒あれば音声が作り始められますね。 でも、無料で提供し続けたらサーバの維持費もバカにならないですよね…? 有料化しても使う人は全然いるクオリティだと思いますし、なぜ無料での提供にこだわるのでしょうか。
そもそもCoeFont STUDIOの根底にある狙いとしては、名前の通り「声のフォント」になってほしいというのがあって。 実はアリアルとミリアルも世界的に有名なフォントの「Arial」と「Myriad」から取っています。
だったらベースのフォントは無料で公開すべきだし、そうじゃないならフォントって呼べないじゃないですか。 我々は倒産するかもしれないですけど、CoeFont STUDIOは無料でやってると思います。
すごい覚悟ですね…!
自然な発音は自然言語処理と"発音のプロ"のフィードバックで実現
音声の自然さという面だと、CoeFont STUDIOで作った音声は他のサービスに比べて「機械っぽい」発音が少ない気がします。 これはどうやって実現されているんですか?
違和感のない読みとアクセントにできているのが大きいと思います。 裏側としては、自然言語処理用のAIで読みとアクセントを予想して、それを音声合成用のAIで合成する、という2段階の仕組みで実現してます。
自然言語処理も行っているんですね。 なぜ必要なんですか?
アクセントの推定ってAIによる処理をしないと対応できないんです。 例えば「はし」って単語があったとするじゃないですか。これって読みは全部おなじ「HASHI」ですよね。 でもアクセントは、意味するものがブリッジなのかチョップスティックなのか、はたまたエッジなのかによって変わります。 この違いは、いわゆる辞書型の処理ではどうしても区別できません。
そこで、AIに文章の文脈から単語の意味を推定させることで、単語の区別をさせます。 そうするとアクセントも自然と決まるので、その後音声合成用のAIで音声を合成する、という流れです。 このアクセントを推定する仕組みは現在特許も申請していて、CoeFontならではのポイントです。
自然言語処理の段階で音声合成がしやすいようにデータを変換するんですね。
合成した音声についても、現役のアナウンサーさんに監修に入っていただき、日々ブラッシュアップしています。 細かいところ、たとえば鼻濁音や調についてもフィードバックをもらっています。 リンゴの「ゴ」とゴリラの「ゴ」って同じゴですが、全然発音が違うって知ってました?
知らなかったですし、言われても全く何が違うのかわからないです(笑)
普通わかんないですよね(笑) 僕も最初の頃は全くわからず、ずっと聞いててやっとわかってきたって感じです。 アナウンサーさんはこういう発音の細かい部分もすべて勉強されているので、自然な日本語になるように指摘していただいています。 こういった部分も実装しないと真にいいものはできないと思うので。
素朴な疑問なんですが、そういう細かい部分って言われたら直せるものなんですか? それとも、なにか技術的なネックがあって実装できない状態とか?
ものによりますが、鼻濁音など直せていないものもあります。 技術的に難しい、というよりは、正しい発音で読まれた日本語のデータがないことがネックになっています。 学習データとなる音声の段階で、アクセントや鼻濁音、調まで正しく発音していただければ、そこも学習できるんです。
正しい発音のデータがあれば発音の細かい部分も解決できるんですね。 そこはYELLSTON(CoeFont)さんならすぐに解決できそうなものですが。
大きな声では言えないですが、こちら順調に改善しています。 おそらく数ヶ月以内には、CoeFontSTUDIOで普通の人より「正しい」日本語が合成できるようになると思います。
そうなるともはやプレゼンや発表までCoeFontに任せたいレベルですね。 これからが楽しみです!
自分の声を「フォント化」できる!?声のインフラ「CoeFont Cloud」の全貌
CoeFont STUDIO以外にも、YELLSTONさんが開発を進めているサービスはありますか?
「CoeFont CLOUD」というサービスを開発しています。 こちらは、お金を払うことで自分の声を「アリアル」や「ミリアル」のように合成音声化し、他の人でも使えるように公開できるサービスです。 音声のインフラをイメージしていただけるとわかりやすいかもしれません。
音声の使用にかかる費用は声をアップロード主に設定いただけるようにして、利用料の一部を我々が受け取る形にしようと思っています。 今年の夏までのリリースを目指し、現在鋭意開発中です。
自分の声を素材化できるようになる、と。 どのようなユースケースを想定されているのでしょうか?
色々あるんですが、1番に思いつくのはオーディオブックです。 現在のオーディオブックって制作費が高すぎて、1冊作るのに100〜200万円くらいかかるんですよ。
そんなにかかるんですか!?
何万字もある本をすべて音読してもらう必要がありますし、読み手もプロなんで本全体を通して読み、収録用のメモをびっしり入れています。 そうなると、どうしてもそのくらいかかってしまうんです。
でもそうなると、元が取れるくらい売れる本しかオーディオブックにならなくなります。 これでは聞きたい本が見つからず、オーディオブックの普及にとってもマイナスですよね。 CoeFont CLOUDを使うことによって、よりたくさんの本がオーディオブック化され、もっとオーディオブックが身近になるといいなと考えています。
これまでより圧倒的に安価にオーディオブックが作れるようになりそうですね。
声優をキャスティングから声の保存まで。CoeFont CLOUDの無限の可能性
もっとリッチな使い方を考えると、好みの声優さんの声でライトノベルを再生することもできるようになります。 神谷さんや花澤さんを自由にキャスティングできるようになるんです。
他の媒体でも応用は効くので、例えばゲームだと好きな声優さんに自分の名前を呼んでもらえるようになることも考えられます。 好きな声優さんに自分の名前を呼んでもらえるのってかなり嬉しい体験じゃないですか。
これまでの音声領域でのリプレイスだけでなくて、よりパーソナライズされた体験も実現可能になるんですね。 CoeFontの普及でこれまでにない体験が実現できそうですごく楽しみです。 ちなみにこういった声の応用先って、全部早川さんが思いついたものなんですか…?
そんなことはなくて、会社のお問い合わせにたくさん応用先についての提案がくるんです。 「こんなことやってみたいんです」って。 よくこんなこと思いつくな…とか知らないと絶対に出てこないな…みたいな発想が多くて、感心するレベルです(笑)。
魅力的な提案がたくさんくると思うんですが、特に印象的なものはありましたか?
これは現在進めているプロジェクトなんですが、病気の手術によって声を失ってしまう方の声を予め録音しておき、手術後にも声を再現できるようにするものがあります。
咽頭がんなど発声に関わる器官の病気だと、手術によって声を出せなくなったり、声が変質してしまうことがあるんです。 そうやって病気で声を失った方が、再び自分の声でコミュニケーションを取れる。 これは非常に社会的意義も大きいと思います。
失ってしまった声を再現できる、素敵な取り組みですね…! CoeFontを通して、早川さんが実現したいことを教えていただけますか?
前提として、世の中にはまだまだ利用可能な「声」が足りていないと思っています。 色んな声をフォントのように提供・利用可能にして、これまでに足りていないところに音声が配られる。
さらに声を利用してもらうことによって、声の持ち主にもお金が回るような仕組みが作れればいいな、と考えています。 弊社の掲げている目標でもありますが、CoeFont STUDIO・CLOUDによって、「クリエイティブの開放」を進めていきたいです。
きっかけは「自分の声を聞くことが嫌だった」から!? CoeFontの原点とは
そもそも、早川さんはどういった経緯でCoeFontを作ろうと思ったんですか?
最初から今のように声を制作・提供できるサービスを目指していたわけではなくて、ボイスチェンジャーを作りたかったんです。
ボイスチェンジャーですか。 それはどんな理由から…?
高校生のころ、ゲームをやり込んでいた時期があったんですが、振り返りのためにプレイ動画を撮影していたんです。 その場で思考を声にすることで、後で反省がしやすくなるんですよね。 その中で、自分の声に対して嫌悪感が拭えなくて…。 ゲームが強くなるためには必要だってわかってるけど、自分の声を聞くのは本当に嫌でしたね。
自分の声を聞くのは不快に感じる、という話はよく聞いたことがあります。 ボイスチェンジャーを開発されてから、ストレートにCoeFontの開発に進まれたんですか?
いえ、結局ボイスチェンジャーを作るのは途中で挫折しました。 当時自分も高校生でまだまだ知識が足りなかったですし、GPUやCPU、アルゴリズムの観点からも音声領域での挑戦は難しかったんです。
それから大学生になって、僕が音声領域に興味があることを知っている大学の先生から、AIによる音声処理の論文を教えてもらいました。 それを参考に自分で音声処理のAIの研究をしてみると、案外面白いものがつくれそうだなって感じて。 ボイスチェンジャーではないが、声のフォントみたいなものができるんじゃないか?と思い開発を始めたのがCoeFont STUDIOでした。
いま大学2年生ってことは大学に入って1年ちょっとですよね…?レベルが高すぎる…。
AIはオンライン講義で、アプリやWebはインターンで 早川さんの語るイマドキな学習法とは。
AIについて学んだのは大学に入ってからですか?
いえ、高校生のころから勉強し始めていました。 ホリエモン(堀江貴文氏)とか、ナイアンティックの川島さん(川島優志氏)とイベントで話す機会があって、そこでディープラーニングなどのAI技術の勉強を勧められて。
コロナで少し話題になっていますが、Couseraというオンラインで世界中の大学の授業を受講できるサービスを使って勉強していました。 スタンフォード大学の授業だったので当然難易度が高く、小テストや課題は死にそうになりながらクリアしていきました。
無料でこんなに本格的な機械学習の勉強ができるんですね…! というか高校生でここまで機械学習の勉強をされていた早川さん、めちゃくちゃすごいですね(笑)。
Qiita記事にもありますが、悪戦苦闘しながらなんとかやり遂げました。 機械学習のコース修了後は、AIを扱う会社でインターンを始めました。
AIに関しては実装も少しはできるようになってたんですが、どうやって一般の人が使えるようにすればいいのかがわからなくて。 ユーザに届けるための技術として、Webやアプリの作り方をインターンとして働くことで学んでましたね。
高校生のときからガッツリWebやアプリの開発もされてたんですね。 自ら進んで開発をされていたときのモチベーションは何だったんでしょうか? 知的好奇心みたいな部分ですか?
純粋に、作ってみたいものがたくさんあったからです。 それこそプログラミングなんて全くわからなかった中学生のころから、今は作れないけどいつか作りたいものが溜まってて。
AIの勉強を始めた他の理由として、僕の作りたかったもののうちのいくつかが、実現に画像認識や音声認識を必要としていたからというのもあったんです。
会ってみるまでは早川さんがどんな人かわからなかったんですが、お話してるとすごく熱心な開発者なんだなというのが伝わってきます。 でも個人でバリバリ開発されていた早川さんが、どうしてCoeFontに関しては個人開発でなく起業という手段を選ばれたんでしょうか?
やっぱりサーバを運営するのひとつとっても、お金がかかってくるじゃないですか。 たまたま研究とかサービスの展開にお金がかかって、継続していくのにはマネタイズが必須だから起業しただけです。 もしお金がなくても回るサービスだったら、起業せずにやっていたと思います。
早川さんにとっては起業はあくまで手段の1つだったんですね…!
STUDIOのアップデートとCLOUDのローンチ。CoeFontのこれから
それでは最後に、CoeFontのこれからの展望についてお聞かせ願えますか?
まず「CoeFont STUDIO」についてですが、「アリアル」と「ミリアル」の今後も弊社で出せる限りの性能へとアップデートして、最高水準の合成音声を無料で使えるようにし続けます。 こちらは商用利用も可能ですので、ご興味を持っていただけた方はぜひ使ってみてください。
そして、近いうちに男性の声フォントである「アベルーニ」もリリースする予定です。 名前は有名なフォントの「Avenir(アベニール)」から来ています。こちらも世界的に有名なフォントで、幾何学的でスッキリとしたフォントです。
次は男性のキャラクターなんですね。 続々とフォントが追加されていきそうで楽しみです。 今後リリースが予定されている「CoeFont CLOUD」のほうはいかがでしょうか?
「CLOUD」では先述したように500円から自分の声を制作でき、それを使うことでさらに従量課金されていくようなサービスのスタイルを予定しています。
現在鋭意開発中ですが、先程述べたようにすでに一部の方には使っていただいています。 応用先も現時点でたくさんあるので、早くみなさんにお届けしたいです。
もっと未来の展望で行くと、今後どんどん自然言語処理の技術が発達していくにつれて、音声のインターフェース自体ももっと重要になっていくと思っていて。 そういったところにCoeFontがハマったらと思うと、すごくワクワクしますね。
ものすごく先進的なビジョンなのに、しっかり地に足がついているプランですね…!
あとは、これは個人的な願望なんですが、「もう一人の自分」を作れるようになったら面白いなと思ってます。 ディープフェイクやLive2Dのような技術を使って、まずモデルを自分の姿かたちで作って。 そこに自然言語処理をミックスして、勝手に自分の代わりにしゃべってくれる、みたいな……。
それが作れれば、僕は大学の講義に出ることから解放されるので、もっとCoeFontの開発に本腰を入れられますから(笑)
大学生らしい願望ですね(笑) 本日は貴重なお話をありがとうございました!
ライター
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから