logologo
Geminiで画像生成を行うには?対応状況や使い方を解説
thumb_geminiimagegeneration_01

Geminiで画像生成を行うには?対応状況や使い方を解説

アンドエンジニア編集部
2024.07.26
この記事でわかること
Geminiで画像生成を行うには、プロンプトに指示を入力するだけで、無料で利用できます
現在、英語のメッセージのみに対応し、人物の画像生成も倫理的な問題で停止中です
日本語の画像生成も開発中で、完成した段階でリリースアップデート情報に掲載される予定です

Geminiで画像生成を行うには

img_geminiimagegeneration_01

Geminiは、画像生成が可能なGoogleの大規模言語モデル(LLM)です。Google DeepMindが開発した、テキストや音声、画像など複数のデータを用いた深層学習をベースに学習したモデルであり、LaMDA、PaLM2を置き換えるものです。

画像生成を行うには、プロンプトに指示を入力するだけで、無料で使用することができます。

【参考】:Gemini 【参考】:Google DeepMind: Gemini

Geminiとは?何がすごいのか?始め方や拡張機能も解説

Geminiの画像生成の対応状況

「Gemini アプリのプライバシー ハブ」には、Geminiの画像生成の対応状況が示されています。記載によると、欧州経済領域(EEA)、スイス、英国を除くほとんどの国で利用可能です。EUは、GDPRなど個人データやプライバシー保護に関して規制されているため、提供へのハードルが高いと感じます。

利用可能なプロンプトは英語のメッセージのみで、18歳未満のユーザは利用することができません。

【参考】:Gemini アプリのプライバシー ハブ 【参考】:GDPR(General Data Protection Regulation:一般データ保護規則)

日本語での画像生成は準備中

Geminiは日本語による画像生成のプロンプト入力ができません。日本語対応は進められており、まもなくリリースされる見通しが明かされています。

現時点では、英語でのプロンプト入力がサポートされていますので、基本的な英単語を組み合わせれば、必要な画像を生成することは可能です。詳細については、後半で図解します。

人物の画像生成機能が停止に

Geminiでは、人物の生成は初期リリースから実装されていましたが、過度な人種の特徴を強調した画像を生成したことから批判があり、倫理的な観点で見直しを図っています。この画像生成機能はGeminiの特徴でもあり、いつか遠くない将来において再開されるとの見通しが示されています。

利用に際しては、「Gemini は不正確な情報(人物に関する情報など)を表示することがあるため、生成された回答を再確認するようにしてください。」との注釈が画面に表示されます。

【参考】:Google Blog: Gemini 【参考】:Google Blog: Gemini image generation got it wrong. We'll do better.

Geminiのアップデート情報

2024年2月8日、これまでのBardはGeminiに改称され、無料プランと高性能な AIモデルを提供する有償プランで構成されます。これまでのアップデート情報を見ると高性能化や高機能化は、有償プランであるGemini Advancedから実装しています。

Geminiの日本語メッセージのサポートは、およそ3カ月経過した4月30日のリリースアップデートから対応しています。

【参考】:Gemini リリースの更新内容

Gemini Advancedとは?ChatGPT Plusとの違いを解説

Geminiで画像生成を行う

img_geminiimagegeneration_02

Geminiで画像生成を行うには、Gemini公式サイトでGoogleアカウントにログインするだけで利用できます。公式サイトは以下の参考リンクを確認しましょう。

【参考】:Gemini

Googleアカウントにログインすると、次のようにGeminiの画面が表示されます。下部のプロンプト領域に、通常の指示同様に画像生成の指示を入力します(①)。

img_geminiimagegeneration_03
 【図】:Geminiで画像生成を行う
Gemini Proの使い方を図解で解説!無料版では画像生成できない?

日本語で画像生成を指示する

現時点においてGeminiは日本語での画像生成はできませんが、画像生成ができるのか日本語でプロンプト入力して確認します。

この場合は次の図のように、こちらの問いかけに対して鋭意サポート準備中で準備ができた段階でリリースノートに掲載する旨の返信が得られます(①②)。このようにリリースノートを確認せずとも、プロンプト入力で日本語対応可能か確認することができます。

img_geminiimagegeneration_04
 【図】:画像生成ができるのか日本語で質問する

上記のように、日本語メッセージのプロンプト入力は使用できないことがわかりました。画像生成する場合に入力するプロンプトは、日本語ではなく英語で入力します。英語の基本構文は、「Generate an image of 〜」や「Create an image of 〜」で始まる文章で、後半に何を生成するか英単語を追記するだけです。

丁寧に書く場合は、文頭に「Please」を追記します。指示文章が長くなる場合は、「Please generate the following image.」のように文頭で宣言し、生成するものの名称や特徴などを追記していきます。

画像生成を英語で指示する

ここからは、実際に英語で画像生成を指示する例を図解していきます。前述の通り、基本的な英語の構文は、「Generate an image of 〜」や「Create an image of 〜」ではじまる文章です。

ここでは、「ふわふわの毛がある子犬(a small dog with fluffy hair)」「庭で遊んでいる(It is playing in the yard.)」「人間の子供と遊んでいる(playing with a cute child)」をプロンプト入力しています(①)。

返答(レスポンス)を見ると、「ふわふわの毛がある子犬」「庭で遊んでいる」までは正確に反映されていますが、「人間の子供と遊んでいる」は「若者(a young oerson)」に差し換えられて画像が生成されました(②)。

img_geminiimagegeneration_05
 【図】:画像生成を英語で指示する

生成された画像は、若者の足や手のみが生成されます。そこで次のように、続けて「人間の子供(the human child)」と「子犬を抱えている子供(a child holding a dog in his arms)」「その画像を拡大する(enlarge this image to show)」のように指示を追加します(①)。

生成された画像は、先ほどの犬を持ち上げている画像で、人の手のみが画像に含まれるものでした(②)。

img_geminiimagegeneration_06
 【図】:画像生成の指示を追加する

このことから、現時点では画像生成の倫理的な問題を回避するように、指示のレスポンスを微調整している様子がうかがえます。

人物の画像生成に挑戦する

ここでは、もう一歩人物の画像生成に踏み込んだ指示に挑戦してみます。人物の画像生成は、2024年2月に停止してから再開されていませんので、どのあたりが限界なのか確認することが目的です。

プロンプト入力には、「海で釣りをする人物(a person fishing in the sea)」を画像生成するように指示します(①)。指示に対するレスポンスは、正しく理解されているようですが、生成画像は人物のシルエットと手先のみでした(②)。

img_geminiimagegeneration_07
 【図】:人物の画像生成に挑戦する

そこで次のように、「海で釣りをする人物(a person fishing in the sea)」に「顔を表示させる(The image displays the face of the person)」の指示を加えてみます(①)。その結果は、画像生成ができないことを示すメッセージのみが表示されます(②)。

ここでは、人物の画像生成の改良を続けており、機能が実装でき次第、リリースアップデート情報に掲載する旨のレスポンスが示されます。

img_geminiimagegeneration_08
 【図】:人物の画像生成を要求する

以上の画像生成の確認から、現時点では人物に関しては手足やシルエットまでは対応が可能であり、具体的に顔に言及すると画像生成を行わない仕組みであることがわかりました。

架空の動物を画像生成する

架空の動物などのように、人物に関連しない画像生成は問題なく利用できます。

例えば次のように、「こちらを見て微笑んでいる空飛ぶペガサス(A flying pegasus is looking at us and smiling)」「子供のアニメーション調でかわいらしく(as cute as a children's animation)」と指示すると(①)、要望に合わせて画像が生成されます(②)。

img_geminiimagegeneration_09
 【図】:架空の動物を画像生成する

画像の風合いについては何度か調整すると良いでしょう。具体的には、写真風や絵画風、アニメ風、などの指定が可能です。

Geminiの画像生成は今後の日本語対応に期待しよう

img_geminiimagegeneration_10

Geminiでは、画像生成はプロンプト入力できる言語が限定されており、人物の画像生成についても倫理的な問題が生じています。これらの改善は、2024年2月Bardに改称されて以降も継続的に行われています。

AI利用のテクノロジーは進化を続けており、Geminiにおいても様々な機能実装に加えて日本語の画像生成サポートについても心待ちにしたいと思います。

Gemini Proとは?生成AIの概要とメリット・デメリットを紹介
Gemini Ultraとは?最強生成AIの料金や使い方・メリットを紹介!
気になる人のXをフォローしよう!
公式LINE
公式YouTube
マイナビITエージェント

編集部オススメコンテンツ

thumb_gptowten_01
ChatGPTの面白い使い方15選!ビジネスや遊び相手になる事例
アンドエンジニア編集部
2024.02.19

アンドエンジニアへの取材依頼、情報提供などはこちらから

お問い合わせ・情報提供

カテゴリー

編集部おすすめコンテンツ

アンドエンジニアへの取材依頼、情報提供などはこちらから

logologo
Powered by マイナビ AGENT