生成AIサービスとは
チャットボットシステムとして利用が拡大した生成AIですが、現在では多様な用途に用いられています。生成AIの性能は向上し、生成AI自ら創造的な作品を生成できるレベルに到達しています。ここでは、生成AIのサービスを分類し、利用する上での注意点やリスクについて解説します。
生成AIサービスの分類
生成AI(Generative AI)は、プロンプトとしてテキストで指示を入力し、求めるテキストや画像などをAIによって生成するシステムです。生成AIのモデルは、訓練データに応じてデータ生成の特徴が現れます。大別してテキスト生成、画像生成、音楽生成、動画生成などにまとめることができます。
テキスト生成は、会話の生成や要約の生成、文章の生成などを行います。また、言語という意味ではプログラミングコードの生成もこの分類に入ります。生成AIのこれまでの主要用途がこの分類です。
画像生成は、絵画風や実写風画像の生成、イラストの生成などに用います。音楽生成は、音声の生成や合成、楽曲の生成に用います。動画生成は、キャラクターや背景の生成など、テキスト・画像・音楽の融合的な生成を行うことができます。
これらのサービス用途は今後拡大を続けていくと予想されますが、この4つの分類を中心に細分化と拡大が進むと想定されます。
生成AIの注意点
生成AIは、学習データによって著作権の侵害を引き起こすリスクがあります。同様に、プロンプトによっては、他の作品を模倣してしまう恐れがあるため、倫理的な問題に注意して利用する必要があります。特に商用利用時は、権利侵害に抵触しないように作品の類似性についても注意を払う必要があります。
生成AIの主要サービス10選
生成AIのサービスは、現在も進歩と拡大を続けています。分類を横断的に対応するマルチモーダルと呼ばれるモデルが登場しており、今後の種類の拡大を考えると垣根はさらに変化を続けることが予想されます。
簡単に絞り切れるものではありませんが、ここでは有望な主要サービスを料金やサービスなどを比較し紹介していきます。
(テキスト生成)ChatGPT(チャットジーピーティー)
ChatGPT(チャットジーピーティー)は、OpenAI社が開発した大規模言語モデルです。GPT(Generative Pre-trained Transformer)と呼ばれる機械学習アーキテクチャで、最新版はマルチモーダル型のGPT-4oであり、高速性と正確性が向上しています。推定利用者数は、1億8千万人以上です。
なお、マルチモーダルとはテキスト、画像、音声、動画を統合的に処理できるモデルのことで、多岐に渡る用途に利用できます。読み方は「チャットジーピーティー」です。
▪生成可能な分類:テキスト、画像、音声、動画(マルチモーダルモデル) ▪無料トライアル:無料版を提供 ▪料金プラン :無料版、Plus(月額20USD)、Team・Enterprise(企業向け) ▪日本語の対応 :可能
【参考】:ChatGPT
(テキスト生成)Copilot(コパイロット)
Copilot(コパイロット)は、Microsoftが提供するサービスです。「Bing Chat」から「新しいBing」、そして「Copilot」へと改称されています。
内部ではOpenAIのGPTが用いられており、オフィスツールのMicrosoft 365 Copilot、Windowsで提供するCopilot in Windowsなど、提供の幅を広げています。利用者数は数千万人以上と推定されます。検索エンジンの置き換えが可能です。読み方は「コパイロット」です。
▪生成可能な分類:テキスト、画像、音声(GPT-4oモデル) ▪無料トライアル:無料版、Proの1か月無料試用 ▪料金プラン :無料版、Pro(月額3,200円) ▪日本語の対応 :可能
【参考】:Copilot
(テキスト生成)Gemini(ジェミニ)
Googleが提供するGemini(ジェミニ)は、「Bard」から改称したマルチモーダルのモデルを用いたサービスです。GPTを超えるべく改良を続けており、学習モデルのサイズも数種類用意し、使い分けられています。利用者数は数千万人以上と推定されます。Google Workspaceでのチーム共有などにも活用可能です。読み方は「ジェミニ」です。
▪生成可能な分類:テキスト、画像(マルチモーダルモデル) ▪無料トライアル:無料版、Advancedの1か月無料試用 ▪料金プラン :無料版、Advanced(月額2,900円) ▪日本語の対応 :可能
【参考】:Gemini
(画像生成)DALL·E 3(ダリ スリー)
DALL·E 3(ダリ スリー)はOpenAIが提供するサービスです。高品質な画像が生成できます。DALL·E 3はChatGPTに統合されており、プロンプトから自由に指示を入力して使います。また、MicrosoftのCopilotやImage Creatorからも無料で使用することができます。読み方は「ダルイー スリー」ではなく、「ダリ スリー」です。
▪生成可能な分類:画像(ChatGPTと連動) ▪無料トライアル:無料版を提供 ▪料金プラン :無料版(制限あり)、Plus(月額20USD)、Team・Enterprise(企業向け) ▪日本語の対応 :可能
【参考】:DALL·E 3
(画像生成)Stable Diffusion(ステイブル・ディフュージョン)
Stable Diffusion(ステイブル・ディフュージョン)は、リアルで詳細な画像を生成するモデルです。従来クラウドサービスのみで提供される生成AIを、ローカルに構築できる特徴があります。必要なコードとウェイトは公開されており、人気があります。日本語入力を重視したモデルも提供し、自然な日本的画像の生成が可能です。読み方は「ステイブル・ディフュージョン」です。
▪生成可能な分類:テキストから画像、画像から画像 ▪無料トライアル:無料版を提供 ▪料金プラン :非商用(無料)、コミュニティ(無料)、エンタープライス(企業向け) ▪日本語の対応 :可能
【参考】:Stable Diffusion
(音楽生成)VALL-E(ヴァルイー)
VALL-E(ヴァルイー)は、Microsoftのリサーチプロジェクトから発表された音声合成向けの生成AIです。音声データに基づいて学習されたものであり、VALL-E-Xでは日本語の音声合成にも対応し、Pythonでローカルに構築することができます。およそ3秒の音声があれば全ての音声を生成可能と述べています。読み方は「ヴァルイー」です。
▪生成可能な分類:音楽再生(音声合成) ▪無料トライアル:無料版を提供 ▪料金プラン :無料 ▪日本語の対応 :可能(VALL-E-X)
【参考】:VALL-E
(音楽生成)Suno AI(スノエーアイ)
Suno AI(スノエーアイ)は、テキストからボーカル付きのリアルな音楽向け生成AIです。米国Suno社が提供します。プロンプトに200文字程度の指示を入力し、音楽を生成します。料金プランの違いは生成できる楽曲数の違いで、無料版は1日あたり10曲までに制限されます。商用利用には、有料版が必要です。読み方は「スノエーアイ」です。
▪生成可能な分類:音楽生成(ボーカル付き楽曲、楽器演奏) ▪無料トライアル:無料版を提供 ▪料金プラン :Basic(無料)、Pro(月額10USD)、Premier(月額30USD)※年払い20%オフ ▪日本語の対応 :可能
【参考】:Suno AI
(音楽生成)MusicFX(ミュージックエフエックス)
MusicFX(ミュージックエフエックス)は、Googleが開発した音楽生成AIです。使用するには、Googleアカウントが必要です。テキストベースの説明に基づいて音楽を生成しますが、プロンプトは日本語に比べて英語の方が、細かい要望に応えた音楽が生成できます。読み方は「ミュージックエフエックス」です。
以前は無料版がありましたが、2024年11月時点では有償のスタータープランが必要です。
▪生成可能な分類:音楽生成(メロディー演奏)、歌詞生成 ▪無料トライアル:無料のトライアルクレジットを提供 ▪料金プラン :スターター(月額9.9USD)、スタンダード(月額29.9USD)※年払い20%オフ ▪日本語の対応 :可能
【参考】:MusicFX
(動画生成)Sora(ソラ)
OpenAIが提供するSora(ソラ)は、高精細・高品質な動画を生成できるサービスです。日本語の「空」から命名されたSoraは、テキストから最長1分の動画を生成することができます。同社が有するTransoformerモデルとDALL·E 3を融合し、別次元の映像の生成に成功しました。
このことから単なる動画生成を目的とせず、物理学のシミュレーションなどへの活用も期待されています。2024年11月時点では、安全性や倫理的な面を考慮して一部の専門家に限定して公開している状態です。読み方は「ソラ」です。
▪生成可能な分類:動画生成(テキストから動画) ▪無料トライアル:未定(専門家に限定公開) ▪料金プラン :未定(専門家に限定公開) ▪日本語の対応 :可能
【参考】:Sora
(動画生成)Lumiere(ルミエール)
Lumiere(ルミエール)は、Google Researchが開発した動画生成AIです。テキストから動画を生成するだけではなく、静止画から動画やアニメーションを生成することもできます。
2024年1月に発表されたLumiereは早期の一般公開が期待されますが、社会的なインパクトを考慮し、リスクを排除し安全を保障するための検証を進めていると述べています。読み方は「ルミエール」です。
▪生成可能な分類:動画生成(テキストから動画、静止画から動画・アニメーション化など) ▪無料トライアル:未定 ▪料金プラン :未定 ▪日本語の対応 :未定
【参考】:Lumiere
生成AIのサービスは今後多様化と一体化が進む
生成AIのサービスは、この2年でテキスト生成から画像、音声、動画へと瞬く間に広がりを見せています。その先を考えるとマルチモーダルによって、分類の垣根を超えた横断的な処理が可能になっていくと推測できます。
多様化が進む生成AIのサービスは、今後一体化も合わせてあらゆる用途においても利便性が高まると期待できます。
その他の関連記事
その他に関連する内容は、下記の記事でも紹介しています。ぜひ参考にしてください。
【参考】:生成AIの資格一覧!取得のメリットや試験概要、難易度を解説 【参考】:生成AI本生成AIの学習におすすめの本10選!AIを学ぶメリットも解説
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから