SNSで大きな話題となり、公開わずか5日間で13万人が体験――
音楽やゲームなどエンタメ系の新製品のニュースのようですが、これは実は、“東大”発のAIプロフェッショナル集団による自然言語処理のAIツール「ELYZA DIGEST(イライザ ダイジェスト)」の話。
一見、一般人の日常生活とは縁遠く感じる最先端の「ELYZA DIGEST」がバズったのは、どんな長文でも3行に要約するというキャッチーさと、その結果の面白さ(正しくても間違っていてもシェアしたくなる!)、そして会員登録もインストールもなしに無料で試せる手軽さが理由でしょう。
開発した株式会社ELYZAは、東京大学・松尾研究室発のスタートアップ企業。いま大きな注目を集めており、2021年3月には今後著しい成長が期待されるスタートアップ企業を表彰する『EY Innovative Startup 2021』を、11月には事業や社会を前進させた方々を表彰するアワード『Forward Award 2021』にて『テクノロジー賞』を受賞しています。
今回は「ELYZA DIGEST」のお話を中心に、ディープラーニングやAI技術、自然言語処理(NLP)の現在と未来について、CEOの曽根岡侑也さんと、自然言語処理プロジェクトのリーダーを務める中村朝陽さんにインタビューしました。
前回のインタビュー記事はこちら↓
共同研究の依頼は100以上。日本語AIに期待する時短ニーズ
英語の自然言語処理技術が驚異的に進化していることはわかりましたが、日本語は英語よりずっと難しい言語だというイメージがあります。「うちがやる」と、さきほど曽根岡さんはおっしゃいましたが、日本語でもできるんですか?
アルファベットは26文字ですが、日本語はひらがな・カタカナ・漢字と文字の数が多いですし、英語のように単語を半角ブランクで区切ることもしないので前処理の段階で難しいですね。しかも、web上にある日本語の文章が少ないので、学習のための材料も足りず、ディープラーニングには厳しい環境で、遅れがちなのは事実です。
にもかかわらず、御社が日本語の自然言語処理に挑戦しているのはどうしてですか?
英語圏でできていることが、日本語でできないのはつまらないじゃないですか。どうせやるなら、日本語で面白いことをしたい、日本語で遊びたい、というのが個人的な想いです。
私もほぼ同じですね。さきほども申し上げたように、BERTのようなパラダイムシフトを日本語で経験したいんです。
その想いから生まれたのが、「ELYZA DIGEST」にも使われている日本語の自然言語処理エンジン「ELYZA Brain」なんですね。「BERT」の日本語版に当たる存在だと思いますが、「ELYZA Brain」では今、どんなことができますか?
「ELYZA Brain」を使うことで人間を超えた挙動や「ELYZA DIGEST」のような“WOW!”となるAIの動きを実現できます。具体的には文章の要約、文章の作成支援、高精度な対話システム(チャットボット)の構築といったことですが、企業様との共同開発で“WOW!”となるようなことを実現できないかとチャレンジしている段階です。
ELYZA Brainとは?
「ELYZA Brain」は、NLP(自然言語処理技術)領域における国内最大の日本語AIエンジンです。国内最大の日本語テキストデータの学習量及び国内最大のモデルの大きさを有しており、特定の技術課題ではネイティブな日本語話者の精度を超えています。テキストを扱う様々な業務に適用可能であり、十分な学習データを準備することができれば「読む」「書く」「対話」を含む業務を高精度に支援するツールを実現可能です。
他社との共同開発も多いとのことですが、具体的にどんなお話が進んでいますか?答えられる範囲で結構ですが……。
大丈夫ですよ(笑)。例えばSOMPOホールディングス様とは、コールセンター領域のDXパートナーとして提携しています。コールセンターのオペレーターさんのお仕事って、電話で話を聞く以上にレポート入力に時間がかかるという現実があるんです。実証実験段階なのでどこまで実用化できるかはわかりませんが、電話応対時の音声データを文字起こししてシステム入力する、という作業をAIでサポートできたらいいですよね。
それは画期的ですね!同じような話では、医療分野のカルテや法律関係の議事録にも活用できそうな気がします。
はい、そのあたりは当然ですね。法律の分野ではリーガルテック(リーガル・Legal+テクノロジー・Technology)という言葉もあり、法律業務はAIやITで効率化していく流れです。実際弊社も、森・濱田松本法律事務所様とともに法律業務におけるAI活用の共同研究を行っています。
まさに最先端ですね。ほかに、どんな分野に応用できそうですか?
すでに締切済みのプロジェクトですが、2020年に共同開発のパートナーを募集しました。そのときに以下の30のユースケースを示しています。医師や弁護士など業界に特化したジャンル、人事や営業、カスタマー対応などさまざまな業界を横断して必要とされるジャンル、要約や言い換えなどB2Cで活用されそうなジャンルに分けています。
30に加えて「+その他業界」とありますが、興味を持たれているジャンルや企業はありますか?
100以上の企業様から共同研究の引き合いをいただいているので、こちらからアプローチしたいジャンルや相手というのは現状、ありません。ただ、自然言語処理の課題を提案してくださる企業が100以上集まったことは弊社にとって宝です。いただいた課題を抽象化することで、「文章を書くこと、特に要約や議事録の負担が重い」ということがわかり、「ELYZA DIGEST」ができた、といった経緯もあります。たくさんお話をいただくことで、研究対象や方向性が決まっていっていますね。
AI業界に進むには、英語と数学。勉強は誰でもすぐに始められる。
これから自然言語処理のAIを勉強したい、この道に進みたい、という読者も多いと思います。AI研究者になるには、どんな勉強をすればいいですか?
研究室で指導してきた経験上、ひととおりAIを勉強するには、フルコミットで3ヶ月ですね。3ヶ月というと短い気がするかもしれませんが、本業のある社会人が週末だけで勉強しようとすると2~3年かかってしまう計算です。概要を理解するだけならもう少し短くてもいいのですが、勉強の仕上げとして論文を読み込む必要があるので、社会人だとその時間を確保するのがかなり難しいと思います。なので結果的に、ELYZAには大学や大学院でAIを専門的に勉強したメンバーが多くなっています。
2~3年、ですか。2~3年経てばAIの技術がさらに進化していますよね。理論上は2~3年後だけど、社会人が本業を持ちながら勉強するのは実質不可能、ということなんでしょうか?
もちろん、この分野の状況が大きく変化する可能性はあります。でも、その基礎となる部分は変わらないと考えているので、社会人が勉強するのも不可能ではないと思います。 AIを作ることが一番身になると思いますので、Kaggle等の機械学習コンペティションへ参加したり、自分の実現したいAIを自由研究感覚で作ってみたりすることをおすすめします。私は、研究者のTwitterやHugging Face(オープンソースの自然言語処理のライブラリを作っているコミュニティ)関連のフォーラムもよく見ますね。
では逆に、まだ若い、中高生へのアドバイスはありますか?
英語と数学は必須です。英語は、論文を読んだり、論文のオーサーのSNSをチェックするのに必要になります。日本語に翻訳されるまで待つと、すでに遅いですからね。また、ディープラーニングという技術が線形代数(行列演算)・微積分・最適化・統計論などを複合させた応用分野なので、起きていることを理解し改善するためには数学が必要になります。根本的な部分では、自然言語処理や画像処理等の領域に関わらず同じ技術を用いていますよ。
では、AIを勉強するのは、大学に進んでから、ですか?
いえ、中高生だからまだできないなんてことは何もないです。「自然言語処理 始め方」と検索すれば、自分で作ってみるための情報はいくらでも出てきます。本格的な勉強ができるのは大学なので、大学に入るための勉強はおろそかにできませんが、時間の許す範囲で遊び感覚でAIを触ったり、フォーラムに参加したりして、できることをすぐに始めてほしいですね。
未踏の領域に挑戦し続ける―自然言語処理技術とELYZAのこれから
ざっくりした質問ですが、自然言語処理技術はこれからどうなっていくでしょうか?
この分野はまだ研究開発段階で、現状、実用化はまだあまり進んでいません。でも近い将来、まずはスパムメールやスパムコメント対策あたりから実用化されていくだろうと思っています。ECサイトのおかしなレビューや掲示板などの有害なコメントですね。英語でないと難しい、実用化するにはあと一歩精度が足りない、といった課題はあるのですが、それをなんとか乗り越えて、研究領域で実現できていることが一般社会に届くようになっていくと思います。
2~3年後には、自然言語処理と画像処理をミックスさせた、マルチモーダル(複数の要素を使うディープラーニング)も社会実装レベルでホットになってくるでしょうね。
さらに加速していきそうな感じなんですね。自然言語処理技術がもっと発展すれば、似たような文法構造を持つ別の言語に応用できたり、あるいは新しい言語(人工言語)を作れたり、なんてこともあるのでしょうか?
言語ごとに抱える様々な課題を解決できれば、同じ課題をもつ他言語への応用が期待できます。人工言語については詳しくありませんが、可能性はゼロではないと思います。
御社として、研究者として、これからこうしていきたい、という展望はありますか?
人間が言葉に触れている時間って、気づいていないだけでとても長いですよね。読んだり書いたり、そういうことをもっとラクにしていきたいという想いがあります。それから、小説のアイデアをAIが100個くらい用意してその中から面白いものを選ぶ、というような、いままで想像できなかったようなアプローチやワークフローを作ってみたいですね。 人がやってきたことをラクにする、人がやれなかったことを実現する、ということを目指してやっていきたいです。
ELYZAは“未踏の領域で、あたりまえを創る”というミッションを掲げています。継続的にプロダクトを作り続け、最先端の技術を用いて未だ解決されていない未踏の領域にある問題を解決していくことで社会的価値を発揮していきたいと思っています。
【関連リンク】
ライター
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから