自分の声を合成音声として世界に公開!? 今話題のサービス「CoeFont CLOUD」体験レポート! 開発者へのインタビューも!
coefont
自分の声を合成音声として世界に公開!? 今話題のサービス「CoeFont CLOUD」体験レポート! 開発者へのインタビューも!
アンドエンジニア編集部
2021.07.29
目次

自分の声をフォント化して公開したり、公開されている音声をYoutubeやオーディオブックなどに利用できる「CoeFont CLOUD」

以前のインタビューでは、開発者の早川さんに開発状況や、実現したい未来についてお伺いしました。

そんなCoeFont CLOUDが7/28に一般公開されました!

「声」が「フォント」のように自由に使える | AI音声合成サービス CoeFont CLOUD

しかしこのCoeFont CLOUD、「誰でも自分の声をフォント化できる」とのことですが実際はどのようなものなのでしょうか?

今回は、ナレーターとして活躍している田中 奈々さんのご協力のもと、アンドエンジニア編集部でCoeFont CLOUDを体験してみました!

さらに後半では、CoeFont CLOUDの開発者である、株式会社Yellston(現:株式会社CoeFont)の代表・早川尚吾さんへのインタビューも!

CoeFont CLOUDの合成音声は、ローエンド・ミドルレンジ・ハイエンドの3パターンから選択可能

アンドエンジニア編集部

早速、CoeFont CLOUDを体験してみましょう! CoeFont CLOUDでは、作成した合成音声のことをCoeFontと読んでいるんですね。

ナレーター 田中奈々さん

今回は折角なので、なるべく感情を抑えたアナウンスのような読み方のCoeFontと、声に表情をつけた読み方のCoeFontの2パターンを作って比べてみます。

アンドエンジニア編集部

どんな違いがでるのか楽しみです。

ナレーター 田中奈々さん

CoeFontを作成を押して、っと… ローエンド、ミドルレンジ、ハイエンドと3つの選択肢があるんですね。

select
アンドエンジニア編集部

最高精度でも1500円しかかからないのか、収録時間は8倍なのに。 今回は体験ということで、ローエンドでやってみましょう。

ナレーター 田中奈々さん

わかりました。

ナレーター 田中奈々さん

まずは録音環境に関する注意事項が出てきます。やはり環境は大事なんですね。 私は※宅録で使っているコンデンサマイクを使います。

※宅録: 自宅で収録すること

tanakasan
コンデンサマイクを使い収録している田中さん
アンドエンジニア編集部

少なくともマイクはパソコン内蔵のものよりも外付けのマイクを使ったほうが良さそうですね。

ナレーター 田中奈々さん

ハイエンドでCoeFontを作るときなど、本格的にやりたい場合はスタジオを使って収録するのも手かもしれません。

ナレーター 田中奈々さん

収録が始まる前にマイクを使ったノイズ確認もあるので、自分の環境に問題がないかを確認できるのはいいですね。

noisecheck

収録は画面の指示に従っていればすぐ終わる

ナレーター 田中奈々さん

早速始まったので、文章を録音していきます。 画面がシンプルで操作もわかりやすいので、指示に従っていれば良さそう。

text1
ナレーター 田中奈々さん

イェーイ、ってどんなテンションで読めばいいんだろう…(笑)

ye-i
ナレーター 田中奈々さん

収録が終わりました! 意外と普通の文章を読むんですね。 てっきり、AIに学習させるために意味不明な文章を読むんだと思ってました。

アンドエンジニア編集部

意味のある文章ですが、ちょっとクスリとくるものが多かったですね。 どんな基準で選んでるんだろう…。

ナレーター 田中奈々さん

なかにはセリフのような文章もあり、アナウンス読みにこだわると妙な表現になってしまうので、そこは少し迷いましたね。 イェーイなんて、普通のアナウンス原稿には絶対書かれてないでしょう?

アンドエンジニア編集部

たしかに、イェーイってアナウンスは聞いたことないですね(笑)。

ナレーター 田中奈々さん

収録にかかった時間はだいたい20分くらいでした。 でも、一般の人はもっとかかるかもしれません。

アンドエンジニア編集部

それは収録中に噛んでしまうから、ということですか?

ナレーター 田中奈々さん

それもありますが、もっと大きいのはアクセントのミスや不自然なイントネーションです。 会話していても、たまに変なアクセントになっちゃうとき、ありますよね。 私の場合、自分の読みを客観的に聴きながら読んでいくので、聞き返さなくてもある程度はOK/NGの判断がつきます。

ナレーター 田中奈々さん

一般の人の場合、自分のアクセントやイントネーションが正しいどうかは、録音された音声を聞き返さないと判断しにくいと思います。 丁寧に収録するために、毎文聞き返してチェックして…とやると、もっと時間がかかると思います。

アンドエンジニア編集部

なるほど、では収録に慣れていない人は長くかかると見積もって始めたほうが良さそうです。 体験してみてどうでしたか?

ナレーター 田中奈々さん

楽しかったです! 収録しながら、いま録ってるこの声が合成音声になるんだな、と思うと不思議な感覚でした。 それに、こんなに少ない数の文章を読むだけでCoeFontが作れるというのも驚きでした。 てっきり、もっと一文が長くて体力を使うものだと思っていたので。

アンドエンジニア編集部

自分の声をデジタルに再現する、という体験はこれまでなかったので新鮮ですよね。 音声を聞くのが楽しみです。

アンドエンジニア編集部

ローエンドだと、録音が終わったあとだいたい6〜8時間でCoeFontができるみたいですね。 かなり時間がかかるんだな。 こんなに長時間機械学習を回すとなると、サーバ代も相当かかりそう…。

learning

〜〜 6時間後 〜〜

アンドエンジニア編集部

ローエンドだと6時間くらいでできましたね。 ハイエンドだともっと時間がかかるのかもしれませんが。

アンドエンジニア編集部

早速、出来上がった音声を聴いてみましょう!

田中奈々(元気もりもりver) by AndEngineer
Voiced by https://CoeFont.CLOUD
アンドエンジニア編集部

かなり自然なように聞こえる気がします 田中さんご自身としてはどう感じますか?

ナレーター 田中奈々さん

思ったよりスムーズに再生できるんですね。 それに表情をつけたバージョンは、想像していたよりも自分の声に似ててびっくりしました。

ナレーター 田中奈々さん

特に文末のイントネーションに自分の個性が出てる気がします。 これは意図していなかった部分なので、そこまで再現されるのは面白いですね。

アンドエンジニア編集部

細かい表現まで学習してるんですね、精度が上がっていったらいよいよ本人と見分けがつかなくなりそうだ…。

ナレーター 田中奈々さん

ここまで再現してくるのであれば、ハイエンドで試したくなっちゃいますね。 1500円であれば全然高くないですし。

アンドエンジニア編集部

もし自分の声をCoeFontとして使ったもらいたいのであれば、最初からハイエンドでやるのが良さそうですね。

手軽に自身の声を合成音声として公開することのできるCoeFont CLOUD。

しかし、読んでいて飽きづらい文章の選定や、スムーズな作成体験などはどのようにして実現されているのでしょうか?

気になった我々は、開発者である株式会社Yellston(現:株式会社CoeFont)の代表・早川さんに、開発の裏側をお伺いしてきました!

hayakawasan
2001年東京生まれ。高校にて情報科学、特に機械学習をスタンフォード大学の講義等で学ぶと同時に、個人事業主として働き始める。アースホールディングスと提携し「AI Stylist」を企画・開発。19年「アプリ甲子園」にて第3位に入賞。20年株式会社Yellston創業(現:株式会社CoeFont)。現在は東京工業大学情報工学系に在学中。Twitter:https://twitter.com/pigiipanku

先行公開後に、3日間で1000件以上の申請!? 想定以上の人気を博すCoeFont CLOUD

アンドエンジニア編集部

CoeFont CLOUD 体験してきました! Twitterでも話題になっていますし、色んな人が体験を心待ちにしていると思います。

CoeFont 早川さん

ありがたいことに、先行公開から3日で1000件以上の申請をいただきました。 CoeFontを作る方だと、Vtuberの方やアナウンサーの方、声優の卵の方などから申請を頂いています。

アンドエンジニア編集部

1000件…! 注目の大きさがうかがえますね。

CoeFont 早川さん

CoeFontを製品などに利用してみたい、という企業の方からのお話も来ています。 具体的には、広告代理店電気製造メーカーの方などから申請をいただいています。 想像していたよりも多くの申請が来ていて嬉しい限りです。

アンドエンジニア編集部

本リリースしたらどれだけ多くの利用がなされるのか楽しみですね。

アンドエンジニア編集部

そういえば、CoeFontはローエンドでも6〜8時間くらいAIに学習させますよね? これって料金とか負荷とかけっこう大変なんですか?

CoeFont 早川さん

めっちゃ大変です、ギリギリです(笑) ローエンドもハイエンドも、この設定金額のほとんどを学習用のサーバ代として使っています。 特にハイエンドなんかほぼ赤字です。

アンドエンジニア編集部

そこまでしてこれだけ安くCoeFontを作れるようにしているのはなぜでしょうか? 正直なところ、ローエンドが1000円、ハイエンドが2000円みたいな値段設定でもCoeFontを作る人は多そうです。

CoeFont 早川さん

そこまでしないと、みんな気軽に作れないですから。 僕たちの目指す「声をフォントのように選べる」世界を実現するためには、色んなCoeFontが存在することが重要です。

CoeFont 早川さん

それこそVtuberやアナウンサーのような声のお仕事をされている方から一般の方まで、色んな方にCoeFontを作っていただきたくてこちらの値段にしています。

list
様々な人がCoeFontを作成し、公開している
アンドエンジニア編集部

すごいこだわりですね…!

代表自ら文章を音読し、読み上げに最適な文章へ

アンドエンジニア編集部

こだわりといえば、CoeFont CLOUDを体験してみて感じたことの1つに、体験のなめらかがあります。 CoeFont CLOUDはこれまでにない新しいサービスにも関わらず、CoeFontの作成や公開に不便を感じることがほとんどなく、スムーズに行けた印象があります。 ここにもかなりこだわったんですか?

CoeFont 早川さん

ローエンドで体験してもらう100文は、自分で何回も声に出して読んでみて徹底的に気軽に作れるように改良しました。

アンドエンジニア編集部

100文を声に出して読むのってそこまで楽な作業じゃないのに、それを何回もやられたんですね…! こだわりの強さが伺えます。

CoeFont 早川さん

ユーザの方に見えない部分にもこだわっています。 アンドエンジニアさんってどんな環境で収録されました?

アンドエンジニア編集部

普通に家でやりました。 マイクはコンデンサマイクを使いましたが。

CoeFont 早川さん

普通そうだと思います。 しかし、当たり前ですが自宅は精密な声の収録には向かないんです。 家の中で収録すると、マイクが同居人の生活音や車の音を拾ってしまいます。

CoeFont 早川さん

ですので、何も処理をしないで収録した声を学習させてしまうと、そういった雑音も声として認識されてしまいます。 これを回避するために、僕たちは雑音を除去するための処理を入れたあと、AIに学習させています。

アンドエンジニア編集部

言われてみると雑音があるのは当たり前ですが、気にせず収録してしまう人も多そうです。

CoeFont 早川さん

レコーディングスタジオを借りてやらないかぎりは、どうしても雑音は入ってきます。 特にびっくりしたのが、クリック音です。

CoeFont 早川さん

自宅で収録すると、録音開始のボタンをクリックする音が、音源に入るときがあるんですよね。 もちろんクリック音も、声として認識されないように処理しています。

アンドエンジニア編集部

クリック音まで学習してしまうのは、人間でなくAIならではですね。 このAIの調整もやはり大変でしたか?

CoeFont 早川さん

500台くらいAWSのインスタンスを立てて、実験を回しまくりました。 その上で滑らかさや抑揚が再現できているか、などをスコア化し、1番高いものを採用しました。

アンドエンジニア編集部

500台も同時にテストされたんですか!? めちゃくちゃ微調整にもこだわられてるんですね。

CoeFont 早川さん

やっぱりそこまでこだわらないといいものはできないので。

CoeFont CLOUDによって、声をフォントのように選べる世界へ

アンドエンジニア編集部

早川さんから、CoeFont CLOUDの利用者の方へ伝えたいことはありますか?

CoeFont 早川さん

まず、本格的なCoeFontを作ろうとされているのであれば、ハイエンドで作成していただくのがおすすめです。

CoeFont 早川さん

ハイエンドを選んでいただけると、現状のAIで最高のパフォーマンスが出るデータ量と学習時間を確保できます。 やはり声質や抑揚、アクセントなどはハイエンドが最も再現できますし、発話も自然になりやすいです。

アベルーニ by AndEngineer
ハイエンドで作成された音源は、つながりも滑らかで人間の声と遜色ない。Voiced by https://CoeFont.CLOUD
アンドエンジニア編集部

我々はローエンドで試しましたが、その後すぐにハイエンドで試してみてたくなりました。 値段もハイエンドで1500円ですし、最初からハイエンドで作ってみるのがいいんですね。

CoeFont 早川さん

そうですね、最初からハイエンドを選んでいただくのがいいと思います。

アンドエンジニア編集部

最後に、CoeFont CLOUDの今後の展望をお伺いさせてください。 CoeFont CLOUDはどのような用途を想定されているのでしょうか?

CoeFont 早川さん

特定の用途はあまり想定していません。 CoeFont Studioをリリースしたときにわかったのですが、ユーザの方々は本当に多様な使い方をしてくれるので、僕たちが想像している用途なんて簡単に超えてくるんです。

CoeFont 早川さん

例えば、プラネタリウムのナレーション六法全書の勉強のための読み上げへの利用なんて、誰も想像できないじゃないですか。 僕らはせいぜい、簡単な動画のナレーションや、オーディオブックのような使い方くらいしか考えていませんでしたし。

アンドエンジニア編集部

これまでにないサービスだからこそ、想像を超えるような使い方があるんですね。

CoeFont 早川さん

ですので、我々は声をフォントのように使えるCoeFontを普及させることで、音声の表現方法を増やすことに注力していきたいと考えています。

アンドエンジニア編集部

声をフォントのように使える世界、楽しみです。 本日はありがとうございました。

「声」が「フォント」のように自由に使える | AI音声合成サービス CoeFont CLOUD

ライター

アンドエンジニア編集部
「エンジニアのこと、エンジニアから。」エンジニア向けの情報をエンジニアの視点から届ける、エンジニアのエンジニアによるエンジニアのためのWebメディアです。
アンドエンジニア編集部の記事一覧を見る
Twitterをフォローしよう!
この記事をシェア
アンドエンジニアの公式LINEができました! ピッタリの記事や役立つ情報が届きます!

編集部オススメコンテンツ

eyecatch_visual_coder
Adobe製品を使わない"デザイナー"?「ビジュアルコーダー」が考える、自己満足で終わらないWebデザインとは
三角
2020.06.16

アンドエンジニアへの取材依頼、情報提供などはこちらから

お問い合わせ・情報提供
この記事をシェア
Twitter
Facebook
LINE
Hatena
アンドエンジニアの公式LINEができました! ピッタリの記事や役立つ情報が届きます!

編集部おすすめコンテンツ

アンドエンジニアへの取材依頼、情報提供などはこちらから