hayakawasan
発声のパフォーマンスは「AI > 99%の一般人」!? 音声サービス「CoeFont」が実現する、"クリエイティブの開放"とは
やぎこ
2021.06.15
この記事でわかること
CoeFont STUDIOの高品質を支えているのは、「特許出願中の自然言語処理技術」と「アナウンサーの監修」だった
声のインフラCoeFont CLOUDによって、「声へのアクセス」が容易になる
CoeFontを作った大学生起業家は、生粋の「開発者」だった

アニメやゲームといったクリエイティブ産業に欠かせないのが、登場するキャラクターに命を吹き込む「声」

またオーディオブックや駅での音声案内なども一般化しており、音声の用途は年々多様になっています。

しかし声の聞きやすさはアクセントや抑揚の調整など話者の技術に依存しており、高クオリティの「声」を収録して利用するには、数十万はかかってしまいます。

AI音声合成サービス「CoeFont STUDIO」は、そんな高クオリティの「声」を誰でも簡単に使えるようにするサービスです。

クリエイターのための無料で使えるAI音声合成サービス

「すべてのクリエイターに声のフォントを届ける」というキャッチコピーの通り、無料で合成音声を使用できるのが特徴です。
音声の「フォント」も「アリアル」「ミリアル」などから選択可能で、音声のクオリティも非常に高く、SNSなどではリリース直後から話題沸騰でした。

本記事では、そんなCoeFontの制作秘話や今後の展望について、現役東工大生の株式会社Yellston代表取締役社長、早川尚吾さんにお話を伺いました。

yellstonhayakawa
2001年東京生まれ。高校にて情報科学、特に機械学習をスタンフォード大学の講義等で学ぶと同時に、個人事業主として働き始める。アースホールディングスと提携し「AI Stylist」を企画・開発。19年「アプリ甲子園」にて第3位に入賞。20年株式会社Yellston創業。現在は東京工業大学情報工学系に在学中。Twitter: https://twitter.com/pigiipanku

六法全書を音読させる!?音声合成サービス「CoeFont STUDIO」の使われ方

やぎこ
CoeFont、すごく話題になっていますよね。SNSでも大反響で。
Yellston 早川さん
拡散もそうでが、こんなに多様な使い方をされるとは思ってもいませんでした。
ローンチ前はせいぜいボイスコミックとかフリー実況、本の読み上げに使われるくらいだと考えていましたし。
それがフタを明けてみると、実況に加えて、歌を歌わせたり、本は本でも六法全書を読み上げさせて勉強に活用していたり。
Yellston 早川さん
CoeFont STUDIOは「声をフォントのように使う」ことを目指しているので、実際に色んな用途に使ってもらえてすごく嬉しいです。
やぎこ
CoeFontSTUDIOがこれだけ人気になった秘訣はなんなんでしょうか?
Yellston 早川さん
手軽さと音声の自然さではないでしょうか。
手軽さという面だと、CoeFont STUDIOではHPに行っていただければすぐに音声を作ることができます。
音声の合成に費用もかかりませんし、これから先も「アリアル」と「ミリアル」に関しては無料で提供し続けます。
やぎこ
ほんとに10秒あれば音声が作り始められますね。
でも、無料で提供し続けたらサーバの維持費もバカにならないですよね…?
有料化しても使う人は全然いるクオリティだと思いますし、なぜ無料での提供にこだわるのでしょうか。
Yellston 早川さん
そもそもCoeFont STUDIOの根底にある狙いとしては、名前の通り「声のフォント」になってほしいというのがあって。
実はアリアルとミリアルも世界的に有名なフォントの「Arial」「Myriad」から取っています。
arialandmyriad
「Arial」(上)と「Myriad」(下)Adobe Fontsより
Yellston 早川さん
だったらベースのフォントは無料で公開すべきだし、そうじゃないならフォントって呼べないじゃないですか。
我々は倒産するかもしれないですけど、CoeFont STUDIOは無料でやってると思います。
やぎこ
すごい覚悟ですね…!

自然な発音は自然言語処理と"発音のプロ"のフィードバックで実現

やぎこ
音声の自然さという面だと、CoeFont STUDIOで作った音声は他のサービスに比べて「機械っぽい」発音が少ない気がします。
これはどうやって実現されているんですか?
Yellston 早川さん
違和感のない読みとアクセントにできているのが大きいと思います。
裏側としては、自然言語処理用のAIで読みとアクセントを予想して、それを音声合成用のAIで合成する、という2段階の仕組みで実現してます。
やぎこ
自然言語処理も行っているんですね。
なぜ必要なんですか?
Yellston 早川さん
アクセントの推定ってAIによる処理をしないと対応できないんです。
例えば「はし」って単語があったとするじゃないですか。これって読みは全部おなじ「HASHI」ですよね。
でもアクセントは、意味するものがブリッジなのかチョップスティックなのか、はたまたエッジなのかによって変わります。
この違いは、いわゆる辞書型の処理ではどうしても区別できません。
Yellston 早川さん
そこで、AIに文章の文脈から単語の意味を推定させることで、単語の区別をさせます。
そうするとアクセントも自然と決まるので、その後音声合成用のAIで音声を合成する、という流れです。
このアクセントを推定する仕組みは現在特許も申請していて、CoeFontならではのポイントです。
image
やぎこ
自然言語処理の段階で音声合成がしやすいようにデータを変換するんですね。
Yellston 早川さん
合成した音声についても、現役のアナウンサーさんに監修に入っていただき、日々ブラッシュアップしています。
細かいところ、たとえば鼻濁音調についてもフィードバックをもらっています。
リンゴの「ゴ」とゴリラの「ゴ」って同じゴですが、全然発音が違うって知ってました?
やぎこ
知らなかったですし、言われても全く何が違うのかわからないです(笑)
Yellston 早川さん
普通わかんないですよね(笑)
僕も最初の頃は全くわからず、ずっと聞いててやっとわかってきたって感じです。
アナウンサーさんはこういう発音の細かい部分もすべて勉強されているので、自然な日本語になるように指摘していただいています。
こういった部分も実装しないと真にいいものはできないと思うので。
やぎこ
素朴な疑問なんですが、そういう細かい部分って言われたら直せるものなんですか?
それとも、なにか技術的なネックがあって実装できない状態とか?
Yellston 早川さん
ものによりますが、鼻濁音など直せていないものもあります。
技術的に難しい、というよりは、正しい発音で読まれた日本語のデータがないことがネックになっています。
学習データとなる音声の段階で、アクセントや鼻濁音、調まで正しく発音していただければ、そこも学習できるんです。
やぎこ
正しい発音のデータがあれば発音の細かい部分も解決できるんですね。
そこはYELLSTONさんならすぐに解決できそうなものですが。
Yellston 早川さん
大きな声では言えないですが、こちら順調に改善しています。
おそらく数ヶ月以内には、CoeFontSTUDIOで普通の人より「正しい」日本語が合成できるようになると思います。
やぎこ
そうなるともはやプレゼンや発表までCoeFontに任せたいレベルですね。
これからが楽しみです!

自分の声を「フォント化」できる!?声のインフラ「CoeFont Cloud」の全貌

やぎこ
CoeFont STUDIO以外にも、YELLSTONさんが開発を進めているサービスはありますか?
Yellston 早川さん
「CoeFont CLOUD」というサービスを開発しています。
こちらは、お金を払うことで自分の声を「アリアル」や「ミリアル」のように合成音声化し、他の人でも使えるように公開できるサービスです。
音声のインフラをイメージしていただけるとわかりやすいかもしれません。

 

Coefontcloud
Yellston 早川さん
音声の使用にかかる費用は声をアップロード主に設定いただけるようにして、利用料の一部を我々が受け取る形にしようと思っています。
今年の夏までのリリースを目指し、現在鋭意開発中です。
やぎこ
自分の声を素材化できるようになる、と。
どのようなユースケースを想定されているのでしょうか?
Yellston 早川さん
色々あるんですが、1番に思いつくのはオーディオブックです。
現在のオーディオブックって制作費が高すぎて、1冊作るのに100〜200万円くらいかかるんですよ。
やぎこ
そんなにかかるんですか!?
Yellston 早川さん
何万字もある本をすべて音読してもらう必要がありますし、読み手もプロなんで本全体を通して読み、収録用のメモをびっしり入れています。
そうなると、どうしてもそのくらいかかってしまうんです。
Yellston 早川さん
でもそうなると、元が取れるくらい売れる本しかオーディオブックにならなくなります。
これでは聞きたい本が見つからず、オーディオブックの普及にとってもマイナスですよね。
CoeFont CLOUDを使うことによって、よりたくさんの本がオーディオブック化され、もっとオーディオブックが身近になるといいなと考えています。
やぎこ
これまでより圧倒的に安価にオーディオブックが作れるようになりそうですね。

声優をキャスティングから声の保存まで。CoeFont CLOUDの無限の可能性

Yellston 早川さん
もっとリッチな使い方を考えると、好みの声優さんの声でライトノベルを再生することもできるようになります。
神谷さんや花澤さんを自由にキャスティングできるようになるんです。
Yellston 早川さん
他の媒体でも応用は効くので、例えばゲームだと好きな声優さんに自分の名前を呼んでもらえるようになることも考えられます。
好きな声優さんに自分の名前を呼んでもらえるのってかなり嬉しい体験じゃないですか。
やぎこ
これまでの音声領域でのリプレイスだけでなくて、よりパーソナライズされた体験も実現可能になるんですね。
CoeFontの普及でこれまでにない体験が実現できそうですごく楽しみです。
ちなみにこういった声の応用先って、全部早川さんが思いついたものなんですか…?
Yellston 早川さん
そんなことはなくて、会社のお問い合わせにたくさん応用先についての提案がくるんです。
「こんなことやってみたいんです」って。
よくこんなこと思いつくな…とか知らないと絶対に出てこないな…みたいな発想が多くて、感心するレベルです(笑)。
やぎこ
魅力的な提案がたくさんくると思うんですが、特に印象的なものはありましたか?
Yellston 早川さん
これは現在進めているプロジェクトなんですが、病気の手術によって声を失ってしまう方の声を予め録音しておき手術後にも声を再現できるようにするものがあります。
失った「声」を取り戻す!声の技術革新
Yellston 早川さん
咽頭がんなど発声に関わる器官の病気だと、手術によって声を出せなくなったり、声が変質してしまうことがあるんです。
そうやって病気で声を失った方が、再び自分の声でコミュニケーションを取れる。
これは非常に社会的意義も大きいと思います。
やぎこ
失ってしまった声を再現できる、素敵な取り組みですね…!
CoeFontを通して、早川さんが実現したいことを教えていただけますか?
Yellston 早川さん
前提として、世の中にはまだまだ利用可能な「声」が足りていないと思っています。
色んな声をフォントのように提供・利用可能にして、これまでに足りていないところに音声が配られる。
Yellston 早川さん
さらに声を利用してもらうことによって、声の持ち主にもお金が回るような仕組みが作れればいいな、と考えています。
弊社の掲げている目標でもありますが、CoeFont STUDIO・CLOUDによって、「クリエイティブの開放」を進めていきたいです。

きっかけは「自分の声を聞くことが嫌だった」から!? CoeFontの原点とは

やぎこ
そもそも、早川さんはどういった経緯でCoeFontを作ろうと思ったんですか?
Yellston 早川さん
最初から今のように声を制作・提供できるサービスを目指していたわけではなくて、ボイスチェンジャーを作りたかったんです。
やぎこ
ボイスチェンジャーですか。
それはどんな理由から…?
Yellston 早川さん
高校生のころ、ゲームをやり込んでいた時期があったんですが、振り返りのためにプレイ動画を撮影していたんです。
その場で思考を声にすることで、後で反省がしやすくなるんですよね。
その中で、自分の声に対して嫌悪感が拭えなくて…。
ゲームが強くなるためには必要だってわかってるけど、自分の声を聞くのは本当に嫌でしたね。
hayakawasan
過去の体験について語る早川さん
やぎこ
自分の声を聞くのは不快に感じる、という話はよく聞いたことがあります。
ボイスチェンジャーを開発されてから、ストレートにCoeFontの開発に進まれたんですか?
Yellston 早川さん
いえ、結局ボイスチェンジャーを作るのは途中で挫折しました。
当時自分も高校生でまだまだ知識が足りなかったですし、GPUやCPU、アルゴリズムの観点からも音声領域での挑戦は難しかったんです。
Yellston 早川さん
それから大学生になって、僕が音声領域に興味があることを知っている大学の先生から、AIによる音声処理の論文を教えてもらいました。
それを参考に自分で音声処理のAIの研究をしてみると、案外面白いものがつくれそうだなって感じて。
ボイスチェンジャーではないが、声のフォントみたいなものができるんじゃないか?と思い開発を始めたのがCoeFont STUDIOでした。
やぎこ
いま大学2年生ってことは大学に入って1年ちょっとですよね…?レベルが高すぎる…。

AIはオンライン講義で、アプリやWebはインターンで 早川さんの語るイマドキな学習法とは。

やぎこ
AIについて学んだのは大学に入ってからですか?
Yellston 早川さん
いえ、高校生のころから勉強し始めていました
ホリエモン(堀江貴文氏)とか、ナイアンティックの川島さん(川島優志氏)とイベントで話す機会があって、そこでディープラーニングなどのAI技術の勉強を勧められて。
Yellston 早川さん
コロナで少し話題になっていますが、Couseraというオンラインで世界中の大学の授業を受講できるサービスを使って勉強していました。
スタンフォード大学の授業だったので当然難易度が高く、小テストや課題は死にそうになりながらクリアしていきました。
ウェイ(17)でもCourseraのMachineLearningを死につつ修了できた話 - Qiita
CouseraでAIについて学んだ早川さんが書いた、Qiitaの記事。どのようにして難易度の高い機械学習のコースを修了したのかが赤裸々に綴られている。
やぎこ
無料でこんなに本格的な機械学習の勉強ができるんですね…!
というか高校生でここまで機械学習の勉強をされていた早川さん、めちゃくちゃすごいですね(笑)。
Yellston 早川さん
Qiita記事にもありますが、悪戦苦闘しながらなんとかやり遂げました。
機械学習のコース修了後は、AIを扱う会社でインターンを始めました。
Yellston 早川さん
AIに関しては実装も少しはできるようになってたんですが、どうやって一般の人が使えるようにすればいいのかがわからなくて。
ユーザに届けるための技術として、Webやアプリの作り方をインターンとして働くことで学んでましたね。
やぎこ
高校生のときからガッツリWebやアプリの開発もされてたんですね。
自ら進んで開発をされていたときのモチベーションは何だったんでしょうか?
知的好奇心みたいな部分ですか?
Yellston 早川さん
純粋に、作ってみたいものがたくさんあったからです。
それこそプログラミングなんて全くわからなかった中学生のころから、今は作れないけどいつか作りたいものが溜まってて。
Yellston 早川さん
AIの勉強を始めた他の理由として、僕の作りたかったもののうちのいくつかが、実現に画像認識や音声認識を必要としていたからというのもあったんです。
やぎこ
会ってみるまでは早川さんがどんな人かわからなかったんですが、お話してるとすごく熱心な開発者なんだなというのが伝わってきます。
でも個人でバリバリ開発されていた早川さんが、どうしてCoeFontに関しては個人開発でなく起業という手段を選ばれたんでしょうか?
Yellston 早川さん
やっぱりサーバを運営するのひとつとっても、お金がかかってくるじゃないですか。
たまたま研究とかサービスの展開にお金がかかって、継続していくのにはマネタイズが必須だから起業しただけです。
もしお金がなくても回るサービスだったら、起業せずにやっていたと思います。
やぎこ
早川さんにとっては起業はあくまで手段の1つだったんですね…!

STUDIOのアップデートとCLOUDのローンチ。CoeFontのこれから

やぎこ
それでは最後に、CoeFontのこれからの展望についてお聞かせ願えますか?
Yellston 早川さん
まず「CoeFont STUDIO」についてですが、「アリアル」と「ミリアル」の今後も弊社で出せる限りの性能へとアップデートして、最高水準の合成音声を無料で使えるようにし続けます。
こちらは商用利用も可能ですので、ご興味を持っていただけた方はぜひ使ってみてください。
クリエイターのための無料で使えるAI音声合成サービス
Yellston 早川さん
そして、近いうちに男性の声フォントである「アベルーニ」もリリースする予定です。
名前は有名なフォントの「Avenir(アベニール)」から来ています。こちらも世界的に有名なフォントで、幾何学的でスッキリとしたフォントです。
やぎこ
次は男性のキャラクターなんですね。
続々とフォントが追加されていきそうで楽しみです。
今後リリースが予定されている「CoeFont CLOUD」のほうはいかがでしょうか?
Yellston 早川さん
「CLOUD」では先述したように500円から自分の声を制作でき、それを使うことでさらに従量課金されていくようなサービスのスタイルを予定しています。
Yellston 早川さん
現在鋭意開発中ですが、先程述べたようにすでに一部の方には使っていただいています。
応用先も現時点でたくさんあるので、早くみなさんにお届けしたいです。
Yellston 早川さん
もっと未来の展望で行くと、今後どんどん自然言語処理の技術が発達していくにつれて、音声のインターフェース自体ももっと重要になっていくと思っていて。
そういったところにCoeFontがハマったらと思うと、すごくワクワクしますね。
やぎこ
ものすごく先進的なビジョンなのに、しっかり地に足がついているプランですね…!
Yellston 早川さん
あとは、これは個人的な願望なんですが、「もう一人の自分」を作れるようになったら面白いなと思ってます。
ディープフェイクやLive2Dのような技術を使って、まずモデルを自分の姿かたちで作って。
そこに自然言語処理をミックスして、勝手に自分の代わりにしゃべってくれる、みたいな……。
Yellston 早川さん
それが作れれば、僕は大学の講義に出ることから解放されるので、もっとCoeFontの開発に本腰を入れられますから(笑)
やぎこ
大学生らしい願望ですね(笑)
本日は貴重なお話をありがとうございました!
Yellston Co.,Ltd.
株式会社YellstonのHP
クリエイターのための無料で使えるAI音声合成サービス
CoeFont Studio

ライター

やぎこ
某首都圏の国立大学で農学専攻の22歳。Webエンジニアとライターで4年くらい個人事業主。 最近は「けいおん!」「ウマ娘」と音響・撮影機材いじりがマイブーム。 お仕事では主にPHPとJavaScriptをがんばってます。
やぎこの記事一覧を見る
Twitterをフォローしよう!
この記事をシェア
Twitter
Facebook
LINE
Hatena
アンドエンジニアの公式LINEができました! ピッタリの記事や役立つ情報が届きます!

編集部オススメコンテンツ

Sponsored
ニューノーマルを実装せよ! ビジネスの変革を支援するオンラインイベント
Sky株式会社
Sponsored
この記事をシェア
Twitter
Facebook
LINE
Hatena
アンドエンジニアの公式LINEができました! ピッタリの記事や役立つ情報が届きます!

編集部おすすめコンテンツ

Sponsored
ニューノーマルを実装せよ! ビジネスの変革を支援するオンラインイベント
Sky株式会社
Sponsored