自分の声を合成音声として世界に公開!? 今話題のサービス「CoeFont CLOUD」体験レポート! 開発者へのインタビューも!
自分の声をフォント化して公開したり、公開されている音声をYoutubeやオーディオブックなどに利用できる「CoeFont CLOUD」。
以前のインタビューでは、開発者の早川さんに開発状況や、実現したい未来についてお伺いしました。
そんなCoeFont CLOUDが7/28に一般公開されました!
しかしこのCoeFont CLOUD、「誰でも自分の声をフォント化できる」とのことですが実際はどのようなものなのでしょうか?
今回は、ナレーターとして活躍している田中 奈々さんのご協力のもと、アンドエンジニア編集部でCoeFont CLOUDを体験してみました!
さらに後半では、CoeFont CLOUDの開発者である、株式会社Yellston(現:株式会社CoeFont)の代表・早川尚吾さんへのインタビューも!
CoeFont CLOUDの合成音声は、ローエンド・ミドルレンジ・ハイエンドの3パターンから選択可能
早速、CoeFont CLOUDを体験してみましょう! CoeFont CLOUDでは、作成した合成音声のことをCoeFontと読んでいるんですね。
今回は折角なので、なるべく感情を抑えたアナウンスのような読み方のCoeFontと、声に表情をつけた読み方のCoeFontの2パターンを作って比べてみます。
どんな違いがでるのか楽しみです。
CoeFontを作成を押して、っと… ローエンド、ミドルレンジ、ハイエンドと3つの選択肢があるんですね。
最高精度でも1500円しかかからないのか、収録時間は8倍なのに。 今回は体験ということで、ローエンドでやってみましょう。
わかりました。
まずは録音環境に関する注意事項が出てきます。やはり環境は大事なんですね。 私は※宅録で使っているコンデンサマイクを使います。
※宅録: 自宅で収録すること
少なくともマイクはパソコン内蔵のものよりも外付けのマイクを使ったほうが良さそうですね。
ハイエンドでCoeFontを作るときなど、本格的にやりたい場合はスタジオを使って収録するのも手かもしれません。
収録が始まる前にマイクを使ったノイズ確認もあるので、自分の環境に問題がないかを確認できるのはいいですね。
収録は画面の指示に従っていればすぐ終わる
早速始まったので、文章を録音していきます。 画面がシンプルで操作もわかりやすいので、指示に従っていれば良さそう。
イェーイ、ってどんなテンションで読めばいいんだろう…(笑)
収録が終わりました! 意外と普通の文章を読むんですね。 てっきり、AIに学習させるために意味不明な文章を読むんだと思ってました。
意味のある文章ですが、ちょっとクスリとくるものが多かったですね。 どんな基準で選んでるんだろう…。
なかにはセリフのような文章もあり、アナウンス読みにこだわると妙な表現になってしまうので、そこは少し迷いましたね。 イェーイなんて、普通のアナウンス原稿には絶対書かれてないでしょう?
たしかに、イェーイってアナウンスは聞いたことないですね(笑)。
収録にかかった時間はだいたい20分くらいでした。 でも、一般の人はもっとかかるかもしれません。
それは収録中に噛んでしまうから、ということですか?
それもありますが、もっと大きいのはアクセントのミスや不自然なイントネーションです。 会話していても、たまに変なアクセントになっちゃうとき、ありますよね。 私の場合、自分の読みを客観的に聴きながら読んでいくので、聞き返さなくてもある程度はOK/NGの判断がつきます。
一般の人の場合、自分のアクセントやイントネーションが正しいどうかは、録音された音声を聞き返さないと判断しにくいと思います。 丁寧に収録するために、毎文聞き返してチェックして…とやると、もっと時間がかかると思います。
なるほど、では収録に慣れていない人は長くかかると見積もって始めたほうが良さそうです。 体験してみてどうでしたか?
楽しかったです! 収録しながら、いま録ってるこの声が合成音声になるんだな、と思うと不思議な感覚でした。 それに、こんなに少ない数の文章を読むだけでCoeFontが作れるというのも驚きでした。 てっきり、もっと一文が長くて体力を使うものだと思っていたので。
自分の声をデジタルに再現する、という体験はこれまでなかったので新鮮ですよね。 音声を聞くのが楽しみです。
ローエンドだと、録音が終わったあとだいたい6〜8時間でCoeFontができるみたいですね。 かなり時間がかかるんだな。 こんなに長時間機械学習を回すとなると、サーバ代も相当かかりそう…。
〜〜 6時間後 〜〜
ローエンドだと6時間くらいでできましたね。 ハイエンドだともっと時間がかかるのかもしれませんが。
早速、出来上がった音声を聴いてみましょう!
かなり自然なように聞こえる気がします 田中さんご自身としてはどう感じますか?
思ったよりスムーズに再生できるんですね。 それに表情をつけたバージョンは、想像していたよりも自分の声に似ててびっくりしました。
特に文末のイントネーションに自分の個性が出てる気がします。 これは意図していなかった部分なので、そこまで再現されるのは面白いですね。
細かい表現まで学習してるんですね、精度が上がっていったらいよいよ本人と見分けがつかなくなりそうだ…。
ここまで再現してくるのであれば、ハイエンドで試したくなっちゃいますね。 1500円であれば全然高くないですし。
もし自分の声をCoeFontとして使ったもらいたいのであれば、最初からハイエンドでやるのが良さそうですね。
手軽に自身の声を合成音声として公開することのできるCoeFont CLOUD。
しかし、読んでいて飽きづらい文章の選定や、スムーズな作成体験などはどのようにして実現されているのでしょうか?
気になった我々は、開発者である株式会社Yellston(現:株式会社CoeFont)の代表・早川さんに、開発の裏側をお伺いしてきました!
先行公開後に、3日間で1000件以上の申請!? 想定以上の人気を博すCoeFont CLOUD
CoeFont CLOUD 体験してきました! Twitterでも話題になっていますし、色んな人が体験を心待ちにしていると思います。
ありがたいことに、先行公開から3日で1000件以上の申請をいただきました。 CoeFontを作る方だと、Vtuberの方やアナウンサーの方、声優の卵の方などから申請を頂いています。
1000件…! 注目の大きさがうかがえますね。
CoeFontを製品などに利用してみたい、という企業の方からのお話も来ています。 具体的には、広告代理店や電気製造メーカーの方などから申請をいただいています。 想像していたよりも多くの申請が来ていて嬉しい限りです。
本リリースしたらどれだけ多くの利用がなされるのか楽しみですね。
そういえば、CoeFontはローエンドでも6〜8時間くらいAIに学習させますよね? これって料金とか負荷とかけっこう大変なんですか?
めっちゃ大変です、ギリギリです(笑) ローエンドもハイエンドも、この設定金額のほとんどを学習用のサーバ代として使っています。 特にハイエンドなんかほぼ赤字です。
そこまでしてこれだけ安くCoeFontを作れるようにしているのはなぜでしょうか? 正直なところ、ローエンドが1000円、ハイエンドが2000円みたいな値段設定でもCoeFontを作る人は多そうです。
そこまでしないと、みんな気軽に作れないですから。 僕たちの目指す「声をフォントのように選べる」世界を実現するためには、色んなCoeFontが存在することが重要です。
それこそVtuberやアナウンサーのような声のお仕事をされている方から一般の方まで、色んな方にCoeFontを作っていただきたくてこちらの値段にしています。
すごいこだわりですね…!
代表自ら文章を音読し、読み上げに最適な文章へ
こだわりといえば、CoeFont CLOUDを体験してみて感じたことの1つに、体験のなめらかがあります。 CoeFont CLOUDはこれまでにない新しいサービスにも関わらず、CoeFontの作成や公開に不便を感じることがほとんどなく、スムーズに行けた印象があります。 ここにもかなりこだわったんですか?
ローエンドで体験してもらう100文は、自分で何回も声に出して読んでみて、徹底的に気軽に作れるように改良しました。
100文を声に出して読むのってそこまで楽な作業じゃないのに、それを何回もやられたんですね…! こだわりの強さが伺えます。
ユーザの方に見えない部分にもこだわっています。 アンドエンジニアさんってどんな環境で収録されました?
普通に家でやりました。 マイクはコンデンサマイクを使いましたが。
普通そうだと思います。 しかし、当たり前ですが自宅は精密な声の収録には向かないんです。 家の中で収録すると、マイクが同居人の生活音や車の音を拾ってしまいます。
ですので、何も処理をしないで収録した声を学習させてしまうと、そういった雑音も声として認識されてしまいます。 これを回避するために、僕たちは雑音を除去するための処理を入れたあと、AIに学習させています。
言われてみると雑音があるのは当たり前ですが、気にせず収録してしまう人も多そうです。
レコーディングスタジオを借りてやらないかぎりは、どうしても雑音は入ってきます。 特にびっくりしたのが、クリック音です。
自宅で収録すると、録音開始のボタンをクリックする音が、音源に入るときがあるんですよね。 もちろんクリック音も、声として認識されないように処理しています。
クリック音まで学習してしまうのは、人間でなくAIならではですね。 このAIの調整もやはり大変でしたか?
500台くらいAWSのインスタンスを立てて、実験を回しまくりました。 その上で滑らかさや抑揚が再現できているか、などをスコア化し、1番高いものを採用しました。
500台も同時にテストされたんですか!? めちゃくちゃ微調整にもこだわられてるんですね。
やっぱりそこまでこだわらないといいものはできないので。
CoeFont CLOUDによって、声をフォントのように選べる世界へ
早川さんから、CoeFont CLOUDの利用者の方へ伝えたいことはありますか?
まず、本格的なCoeFontを作ろうとされているのであれば、ハイエンドで作成していただくのがおすすめです。
ハイエンドを選んでいただけると、現状のAIで最高のパフォーマンスが出るデータ量と学習時間を確保できます。 やはり声質や抑揚、アクセントなどはハイエンドが最も再現できますし、発話も自然になりやすいです。
我々はローエンドで試しましたが、その後すぐにハイエンドで試してみてたくなりました。 値段もハイエンドで1500円ですし、最初からハイエンドで作ってみるのがいいんですね。
そうですね、最初からハイエンドを選んでいただくのがいいと思います。
最後に、CoeFont CLOUDの今後の展望をお伺いさせてください。 CoeFont CLOUDはどのような用途を想定されているのでしょうか?
特定の用途はあまり想定していません。 CoeFont Studioをリリースしたときにわかったのですが、ユーザの方々は本当に多様な使い方をしてくれるので、僕たちが想像している用途なんて簡単に超えてくるんです。
例えば、プラネタリウムのナレーションや六法全書の勉強のための読み上げへの利用なんて、誰も想像できないじゃないですか。 僕らはせいぜい、簡単な動画のナレーションや、オーディオブックのような使い方くらいしか考えていませんでしたし。
これまでにないサービスだからこそ、想像を超えるような使い方があるんですね。
ですので、我々は声をフォントのように使えるCoeFontを普及させることで、音声の表現方法を増やすことに注力していきたいと考えています。
声をフォントのように使える世界、楽しみです。 本日はありがとうございました。
ライター
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから