logologo
AIが字幕に感情をもたらす! Android「Expressive Capitons」とは?
cover

AIが字幕に感情をもたらす! Android「Expressive Capitons」とは?

アンドエンジニア編集部
2025.02.04

Androidの新しい機能「Expressive Capitons」は、ライブキャプションに基づいて生成されるため、何を言っているかがわかるだけでなく、感情まで読み取ることができます。

image

キャプションは1970年代、聴覚障害者や難聴者の方々が、テレビコンテンンツを見るために普及した歴史があります。

さらに現在では、Z世代の70%が、地下鉄や公共スペースなど騒々しい場所でビデオを見る時に、何を言っているのかをより理解するためにキャプションを利用しています。そうした場所では、ライブストリーム、ソーシャルコンテンツあるいは友人や家族のビデオにキャプションがない場合は理解が難しくなりますが、一般的には、キャプションの表示方法は過去50年大きくは変わっていません。強調、トーン、個性など、語調などのニュアンスが失われることも多いです。

この記事では、AndroidにLive Captionの新機能「Expressive Captions」を導入した場合、何を言っているかだけではなくどう言っているかを理解する方法をご紹介します。ライブ翻訳、サウンド通知などを含むGoogleキャプションプロダクトスイートを進歩させる有意義なアップデートとなっており、言葉を聞くことができない状況でも感じ取ることができるということです。

キャプションに感情をもたらす「Expressive Capitons」

image
▲Expressive Captionsがキャプションに強弱や感情をもたらす。

Expressive Captionsは、Androidデバイスにおいて、AIを使用して、語調、音量、環境キュー、人間のノイズなどを伝えます。細かい内容ですが、プリロードされたキャプション、高品質のキャプションがないライブ映像やソーシャルコンテンツの場合、言葉を超えて感情を伝える上で大きな違いをもたらします。

  • 大文字による強調表示:キャプションに大文字で言葉の強度を反映できるようにしました。友人があなたに「ハッピーバースデー!」と言った際、興奮した口調であることを知ることができます。
  • ボーカルバースト:ため息、うめき声、喘ぎ声などが識別され、音が持つ本質的な表現を知ることができます。
  • アンビエントサウンド:拍手や歓声など、周囲の環境音にラベルをつけることにより、何が起きているのかをより詳しく把握できるようになります。
image
▲Expressive Captionsは、キャプションに欠けていることが多い文脈を提供するために3つの機能を使用

Expressive Captionsはライブキャプションの一部としてオペレーティングシステムに組み込まれており、スマートフォンのすべてのアプリで利用できます。つまり、ソーシャルプラットフォームでのライブ配信、Googleフォトリールの思い出、友人や家族からのビデオメッセージなど、視聴するほとんどの映像でExpressive Captionsが利用できます。Expressive Captionsを有効にすると、字幕はデバイス上でリアルタイム生成されるため、機内モードであっても使用できます。

Expressive Captionsに命を吹き込む

Expressive Captionsを開発するために、AndroidとGoogle DeepMindチームは、サウンドがない場合、デイバス上のコンテンツをどのように理解できるかを調査しました。Expressive Captionsは複数のAIモデルを使用して、話し言葉をキャプチャーするだけでなく、一定の様式に従ったキャプションに変換し、さらにバックグラウンドサウンドのラベルを提供します。

GoogleはExpressive Captionsについて、「キャプションは音声を聴くのと同じぐらい、鮮やかに理解できるものとなりました。障害を持つ方々の生活体験を豊かにするために開発され、すべての人のために開発する方法のひとつにすぎません」としています。

この発表時点(2024年12月5日)においてまずは米国において英語に対応、ライブキャプション機能を備えたAndroid 14以降を搭載しているAndroidデバイスで利用可能。

「これは、キャプションに感情的な表現と文脈をもたらすための方法を見つける私たちの仕事のごく一部にすぎません」(Google)。

【記事出典】 Google The Keyword「Android’s Expressive Captions uses AI to bring emotion to captions

【関連リンク】 今さら聞けない人工知能(AI)の基礎知識|AI開発の基本を解説! AIの勉強は何から始める?独学で学ぶためのロードマップを解説! AI関連資格おすすめ8選!未経験からAIエンジニアになる上で取得したい資格

あなたに合った企業選びをサポート致します。
エンジニア転職のご相談はぜひ
『マイナビIT エージェント』へ!
気になる人のXをフォローしよう!
公式LINE
公式YouTube
この記事をシェア
マイナビITエージェント

編集部オススメコンテンツ

Sponsored
【年収±診断】6つの質問に答えて、真の市場価値をチェック!
マイナビITエージェント
Sponsored

アンドエンジニアへの取材依頼、情報提供などはこちらから

お問い合わせ・情報提供

カテゴリー

編集部おすすめコンテンツ

Sponsored
【年収±診断】6つの質問に答えて、真の市場価値をチェック!
マイナビITエージェント
Sponsored

アンドエンジニアへの取材依頼、情報提供などはこちらから

logologo
Powered by マイナビ AGENT