ChatGPTとWhisperの違いは？料金や使い方も解説

サービス・ツール・技術

サービス・ツール

ChatGPT

使い方

アンドエンジニア編集部

2023.08.28

この記事でわかること

ChatGPTとWhisperの概要について分かります

ChatGPTとWhisperを使った文字起こしの方法が分かります

ChatGPTとWhisperについて不明点がある時は、ドキュメントも活用しましょう

Facebook

LINE

Hatena

ChatGPTとWhisperについて

AIツールとして注目を集めているChatGPTですが、ChatGPTを提供しているOpenAIは文字起こしの機能に「Whisper」というサービスを公開しています。

ChatGPTを利用したことはあるけれど、Whisperについては知らないという方は多いのではないでしょうか。

本記事ではChatGPTとWhisperの概要に触れた後で、Whisperの使い方を解説します。AIを活用して文字起こしをしたい方は、ぜひ参考にしてください。

ChatGPTとは

まずは、ChatGPTについて簡単に解説します。ChatGPTとは、OpenAIが公開している対話型のチャットツールです。ChatGPTは人間が入力した質問に対して、インターネット上のデータから集約・分析したデータを自然な文章で返答してくれるツールです。

このChatGPTのツールを利用すると、クリエイティブな企画の立案をしたり、プログラミングのコードを解説してくれたりします。

【参考】：OpenAI ChatGPTについて

ChatGPTとは？今話題のAIチャットボットの概要や仕組みを解説！

Whisperとは

Whisperは、ChatGPTと同様にOpenAIが提供しているサービスです。このWhisperは、音声をテキストに変換します。非常に高い精度で文字起こしをするため、便利なサービスと言えるでしょう。

【参考】：OpenAI Whisperについて

Whisper APIの使い方

Whisperを利用するためには、OpenAIの提供するAPIを利用します。しかし、APIを普段利用したことがない方は、具体的な使い方が分からないかもしれません。本記事では後述でWhisperの使い方を詳しく解説しますので、ぜひ参考にしてください。

【参考】：ChatGPTとWhisperAPIの利用について

Whisper APIの料金

前述にて、Whisperで文字起こしをするためにAPIを利用する必要があると説明しました。このAPIですが、利用する時には料金がかかります。

ただし、$0.006 / 分とかなりの低額で利用できますので、個人の方でも気軽に試すことができます。（2023年8月執筆時点）

執筆時点から金額が変更になる可能性もありますので、正確な料金の詳細について知りたい方は公式サイトを確認してください。

【参考】：Whisperの料金について

Whisperを利用して文字起こしをする方法

ここまではChatGPTやWhisperAPIの概要について触れましたが、ここからは具体的な利用方法を解説します。

また、WhisperAPIを実行するためには、Pythonの実行環境が必要です。そのため、今回はGoogle Colaboratoryというブラウザ上でPythonを実行できる、Googleのツールを活用します。Googleのアカウントが必要ですので、事前にアカウントにログインしましょう。

Pythonの環境構築：公開ソフトウェアを活用した環境整備を解説

Whisper APIキーを取得する

Whisper APIを利用するためには、APIキーが必要です。まずは、公式サイトからAPIキーを発行しましょう。OpneAIにログインすると、下図のようにメニューが表示されます。

【図】：OpneAIにログインする

今回は、1番右にある「API」をクリックしましょう。すると、画面が切り替わりOpenAIのプラットフォームが表示されます。また、赤枠のように画面右上にアイコンが表示されているはずですので、こちらをクリックしましょう。

【図】：アイコンをクリックする

クリックするとメニューが表示され、ここの「View API keys」をクリックするとAPIキーの一覧が表示されます。この時、まだAPIキーを取得していない場合は、「＋Create new secret key」というボタンをクリックしましょう。

【図】：OpenAIプラットフォームでView API keysを選択する

ポップアップが表示され、新しい秘密鍵の名称を取得することができます。このAPIキーは、後で使いますので他の人に漏洩しない形で、文字列を控えてください。

【参考】：OpenAI APIリファレンス

Organization IDをコピーする

続いて、Organization IDを確認します。Organization IDはOpenAIのプラットフォームの画面右上のアイコンをクリックし、「manage account」をクリックします。

画面が切り替わり、Organization IDが確認できます。こちらも文字列を控えて下さい。

【図】：Organization IDを確認する

さらにまた画面が切り替わり、Organization IDが表示されますのでローカルなどに保存しましょう。

音声データを用意する

今回は、サンプルデータとして任意の音声データを用意してください。ちなみにWhisper APIで対応している音声データの形式は、mp3・mp4・mpeg・mpga・m4a・wav・webmです。

【参考】：音声データについて

Google Colaboratoryにアクセスする

次に、Google Colaboratoryにアクセスしましょう。ファイルタブの「ノートブックを新規作成」を選択すると、ノートブックが開きます。

【図】：ノートブックを新規作成する

Google Colaboratoryはセルごとにコードを実行できます。コードを追加する時には、「＋コード」タブを選択してください。

【図】：コード入力セルを追加する

セルが追加され、その中にコードを記述できるようになります。ここまで設定できたら、以下のコードを入力してください。さらに、上図の赤枠のアイコンをクリックするとコードを実行できます。

pip install openai

ちなみに上記のコードはOpenAIのライブラリをインストールするコードです。

【図】：OpenAIのライブラリをインストールする

【参考】：Google Colaboratory について

文字起こしを実行する

ここまでコードを実行できたら、文字起こしをしてみましょう。まず、任意で用意した音声ファイルをGoogle Colaboratoryのファイルにアップロードします。ドラッグ＆ドロップをして、アップロードしてください。

【図】：ファイルのアップロードを行う

次に、以下のようにコードを実行します。ちなみに「～～～」には自身のOrganization ID、「〇〇〇」にはAPIキーを入力します。

ORGANIZATION_KEY = '～～～'
API_KEY = '〇〇〇'
model_id ='whisper-1'
audio_file= open("/content/samplevoice.mp3", "rb")
response=openai.Audio.transcribe(
   api_key=API_KEY,
    model=model_id,
    file=audio_file,
    response_format='text'
)
print(result["text"])

ちなみにデフォルトでは、音声データを文字起こししたデータはjsonファイルです。そのためテキストに変更する場合には「response_format」を「text」に設定します。

【図】：コードを入力、実行した結果

上図の赤枠のように、実行結果として文字起こしした結果が表示されれば成功です。

【参考】：APIリファレンス【参考】：OpenAIドキュメント音声をテキストに変換する