ChatGPT-4oとは
「ChatGPT-4o」とは、より自然な人間とコンピュータの対話を目指して提供されるAIチャットボットシステムを指します。OpenAI社のフラッグシップシステムとして、2024年5月13日にリリースされました。
ChatGPT-4oの末尾に示す "o" は、 "omni "(オムニ)を表しており、テキスト、オーディオ、イメージ、ビデオのあらゆる組み合わせを入力し、即時に応答を生成出力することができます。
【参考】:OpenAI: Spring Update 【参考】:OpenAI: GPT-4o 【参考】:OpenAI: ChatGPT — Release Notes
GPT-4oの概要と特徴
GPT-4oは、ChatGPTで選択可能な最新のGPT言語モデルです。テキスト、画像、音声にまたがる単一モデルをトレーニング済みで、マルチモーダルと言われる、すべての入力と出力が同じニューラルネットワークによって処理されます。
つまり「テキストから画像・音声」や「画像からテキスト・音声」、あるいは「音声からテキスト・画像」など、異なる形式のデータの処理を同時に行うことができます。
ChatGPT-4oは、高速で低価格、自然に応答できる特徴を合わせ持ちます。音声入力を見ると、最短232ミリ秒、平均320ミリ秒で応答することができ、会話の際の人間の応答時間に匹敵します。
テキストプロンプトの処理も英語のみならず、多言語で高速化が図られています。APIにおいても、GPT-4 Turboの2倍の性能でありながらおよそ半額で提供されます。
GPT-4oを使うには
GPT-4oを使うには、ChatGPTでGPTを指定して使用することができます。無料で使用することができますが、3時間で10回というように時間当たりの利用回数が設定されています。
有料プランのChatGPT Plusでは、GPT-4oのメッセージ数が最大5倍に緩和されるため、制限を気にせずに利用できます。有料プランの料金は、月額20USドルで提供されます。
学習データは2023年10月までの情報に基づきますが、適宜最新の情報を取り込んでいるとも報告されており、応答の正確性はセルフチェックが必要です。
【参考】:ChatGPT
さらにGPT-4o miniも登場
2024年7月18日、ChatGPTの新しいモデルとして「GPT-4o mini」が登場しました。ChatGPTのアカウントがなくても利用することができます。テキストの応答速度に特化しており、GPT-4oの2倍のトークン処理性能を誇ります。
しかしながら、あくまでもテキストチャットに特化しており、画像の生成やファイルの添付には対応していません。
GPT-4o miniの登場によってGPT-3.5はブラウザ版アプリ版ともに選択できなくなっており、将来的にはGPT-4o miniへの動画と音声の対応が予定されています。
【参考】:OpenAI: GPT-4o mini: advancing cost-efficient intelligence
ChatGPT-4oを使ってみる
ChatGPT-4oを使うには、ChatGPTにログインする必要があります。無料版・有料版サブスクリプションのいずれかで使用できます。ログインせずにChatGPTを使うと、ChatGPT-4o miniがプロンプトに対応します。
ログイン状態の違いは、ログインしていない場合は右上の「ログイン」「サインアップ」が表示され(①)、左上に「ChatGPT 4o mini」と表示されます(③)。ログインすると、右上にアカウントアイコンが表示され(③)、左上に「ChatGPT」と表示が切り替わります。
GPTモデルの切り替え方
ChatGPTでは無料アカウントでも、GPTを切り替えて使用することができます。デフォルト設定ではGPT-4oが起動されます。時間当たりの制限を超えると、自動的にChatGPT 4o miniに切り替わります。
確認するには、プロンプトに入力して何らかの応答をChatGPTから得ます(①)。ブラウザ版では、応答表示の下に5つのアイコンが表示されますので、1番右側の星型のアイコンをクリックします(②)。
その後、切り替えメニューがポップアップ表示されますので(③)、必要に応じてGPTを変更することもできます。
アプリ版でGPTモデルを確認するには、応答表示を長押しします(①)。長押しするとメニューが表示されますので、メニューに表示されるモデル名を確認したり(②)、クリックからGPTモデルを変更したりすることができます(③)。
音声の入力や会話
GPT-4oでは音声認識機能が高速化され、音声の入力や会話がよりスムーズになります。この機能は、有料版のChatGPT Plusでサポートが始まっており、秋には全有料プランユーザへの配信が完了する予定です。
ここでは、2023年11月21日に全ユーザに開放されたアプリ版の音声認識機能をレビューします。
音声でChatGPTを使うには、プロンプト入力領域右側のヘッドフォンアイコンをクリックします(①)。初回のみアラート画面が表示され、「続ける」をクリックします(②)。次回以降は、このアラート画面は表示されません。
ここで会話を行い、終了時には右下の「×」アイコンをクリックします(①)。また、一時中断する場合は左下の一時停止アイコンをクリックします(②)。
音声を使ったチャットが完了すると(①)、やり取りがチャットの履歴に残ります(②)。この内容をテキスト保存して再利用することができます。
このように便利な音声チャットですが、現在のところGPT-4oの音声認識機能は有料プランのみで、無料版にいつから対応するかは明らかにされていません。
画像の生成と認識
画像の生成と認識機能は、無料プランでも利用することができます。例えば、画像をプロンプト領域にコピーペーストしたりファイルを添付したりして、プロンプト指示を送付します。
ここではあらかじめ別のAIチャットシステムCopilotで生成した、ユニコーンの画像を使っています。このことは、ChatGPTには何も伝えずに、この絵が何なのか聞いてみました。
回答は、まさに画像生成で指示した内容に近いもので、画像認識能力の高さが感じられるものです。もちろん、プロンプトに従って画像を生成することも何の苦もなく行ってくれます。
クラウドストレージサービスからのファイルアップロード
今回の新機能として、クラウドストレージサービスからのファイルアップロードが追加されました。Google DriveとMicrosoft OneDriveからのファイルアップロードに対応します。使用するには、アカウントを追加する必要があります。
次のようにアカウントアイコンをクリックし(①)、ポップアップメニューの「設定」をクリックします(②)。
「設定」画面の「接続するアプリ」を見ると、Google DriveとMicrosoft OneDriveの接続状態が確認できます。「接続する」をクリックすると、それぞれのアカウント認証によって接続が行われます。
正常にアカウント認証が完了すると、表示が「接続する」から「切断」に切り替わります。「切断」をクリックすると接続が解除されます。
使い方は簡単で、プロンプト領域の左側に表示されるクリップのアイコンをクリックします(①)。クラウドストレージが未接続の場合は、Google DriveとMicrosoft OneDriveに「接続する」のリンクが表示されます(②)。
ここでは、ローカルのファイルを添付したり、「接続する」から「設定」画面を経由せずにクラウドストレージに接続することも可能です。
あらかじめクラウドストレージに接続済みの場合は、Google DriveとMicrosoft OneDriveから「追加する」メニューが表示されます(③)。ファイルの格納先を必要に応じて切り替えて使用できます。
【参考】:Google Drive 【参考】:Microsoft OneDrive
ChatGPT-4oは有料プランでなくても不自由なく使えます
ChatGPT-4oのすべての機能は、有料プランのChatGPT Plusで制限を気にせずに利用できます。しかしながら、日常生活で使用する場合などは、短時間に集中的にリクエストを発生することが少ないことから、まずは無料プランで試してみると良いでしょう。
マイナビエージェントに無料登録して
転職サポートを受ける
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから