ChatGPTとWhisperについて
AIツールとして注目を集めているChatGPTですが、ChatGPTを提供しているOpenAIは文字起こしの機能に「Whisper」というサービスを公開しています。
ChatGPTを利用したことはあるけれど、Whisperについては知らないという方は多いのではないでしょうか。
本記事ではChatGPTとWhisperの概要に触れた後で、Whisperの使い方を解説します。AIを活用して文字起こしをしたい方は、ぜひ参考にしてください。
ChatGPTとは
まずは、ChatGPTについて簡単に解説します。ChatGPTとは、OpenAIが公開している対話型のチャットツールです。ChatGPTは人間が入力した質問に対して、インターネット上のデータから集約・分析したデータを自然な文章で返答してくれるツールです。
このChatGPTのツールを利用すると、クリエイティブな企画の立案をしたり、プログラミングのコードを解説してくれたりします。
【参考】:OpenAI ChatGPTについて
Whisperとは
Whisperは、ChatGPTと同様にOpenAIが提供しているサービスです。このWhisperは、音声をテキストに変換します。非常に高い精度で文字起こしをするため、便利なサービスと言えるでしょう。
【参考】:OpenAI Whisperについて
Whisper APIの使い方
Whisperを利用するためには、OpenAIの提供するAPIを利用します。しかし、APIを普段利用したことがない方は、具体的な使い方が分からないかもしれません。本記事では後述でWhisperの使い方を詳しく解説しますので、ぜひ参考にしてください。
【参考】:ChatGPTとWhisperAPIの利用について
Whisper APIの料金
前述にて、Whisperで文字起こしをするためにAPIを利用する必要があると説明しました。このAPIですが、利用する時には料金がかかります。
ただし、$0.006 / 分とかなりの低額で利用できますので、個人の方でも気軽に試すことができます。(2023年8月執筆時点)
執筆時点から金額が変更になる可能性もありますので、正確な料金の詳細について知りたい方は公式サイトを確認してください。
【参考】:Whisperの料金について
Whisperを利用して文字起こしをする方法
ここまではChatGPTやWhisperAPIの概要について触れましたが、ここからは具体的な利用方法を解説します。
また、WhisperAPIを実行するためには、Pythonの実行環境が必要です。そのため、今回はGoogle Colaboratoryというブラウザ上でPythonを実行できる、Googleのツールを活用します。Googleのアカウントが必要ですので、事前にアカウントにログインしましょう。
Whisper APIキーを取得する
Whisper APIを利用するためには、APIキーが必要です。まずは、公式サイトからAPIキーを発行しましょう。OpneAIにログインすると、下図のようにメニューが表示されます。
今回は、1番右にある「API」をクリックしましょう。すると、画面が切り替わりOpenAIのプラットフォームが表示されます。また、赤枠のように画面右上にアイコンが表示されているはずですので、こちらをクリックしましょう。
クリックするとメニューが表示され、ここの「View API keys」をクリックするとAPIキーの一覧が表示されます。この時、まだAPIキーを取得していない場合は、「+Create new secret key」というボタンをクリックしましょう。
ポップアップが表示され、新しい秘密鍵の名称を取得することができます。このAPIキーは、後で使いますので他の人に漏洩しない形で、文字列を控えてください。
【参考】:OpenAI APIリファレンス
Organization IDをコピーする
続いて、Organization IDを確認します。Organization IDはOpenAIのプラットフォームの画面右上のアイコンをクリックし、「manage account」をクリックします。
画面が切り替わり、Organization IDが確認できます。こちらも文字列を控えて下さい。
さらにまた画面が切り替わり、Organization IDが表示されますのでローカルなどに保存しましょう。
音声データを用意する
今回は、サンプルデータとして任意の音声データを用意してください。ちなみにWhisper APIで対応している音声データの形式は、mp3・mp4・mpeg・mpga・m4a・wav・webmです。
【参考】:音声データについて
Google Colaboratoryにアクセスする
次に、Google Colaboratoryにアクセスしましょう。ファイルタブの「ノートブックを新規作成」を選択すると、ノートブックが開きます。
Google Colaboratoryはセルごとにコードを実行できます。コードを追加する時には、「+コード」タブを選択してください。
セルが追加され、その中にコードを記述できるようになります。ここまで設定できたら、以下のコードを入力してください。さらに、上図の赤枠のアイコンをクリックするとコードを実行できます。
pip install openai
ちなみに上記のコードはOpenAIのライブラリをインストールするコードです。
文字起こしを実行する
ここまでコードを実行できたら、文字起こしをしてみましょう。まず、任意で用意した音声ファイルをGoogle Colaboratoryのファイルにアップロードします。ドラッグ&ドロップをして、アップロードしてください。
次に、以下のようにコードを実行します。ちなみに「~~~」には自身のOrganization ID、「〇〇〇」にはAPIキーを入力します。
ORGANIZATION_KEY = '~~~'
API_KEY = '〇〇〇'
model_id ='whisper-1'
audio_file= open("/content/samplevoice.mp3", "rb")
response=openai.Audio.transcribe(
api_key=API_KEY,
model=model_id,
file=audio_file,
response_format='text'
)
print(result["text"])
ちなみにデフォルトでは、音声データを文字起こししたデータはjsonファイルです。そのためテキストに変更する場合には「response_format」を「text」に設定します。
上図の赤枠のように、実行結果として文字起こしした結果が表示されれば成功です。
【参考】:APIリファレンス 【参考】:OpenAIドキュメント 音声をテキストに変換する
ドキュメントも活用しよう
ここまで、ChatGPTとWhisperを利用した文字起こしの方法を解説しました。基本的には上記の方法で文字起こしをすることができますが、より応用的なことをしたい場合や、不明点がある場合はドキュメントも活用しましょう。
OpenAIの公式サイトには、ChatGPTの使い方を解説したドキュメントの他に、APIツールの使い方をまとめたAPIリファレンスが用意されています。必要に応じて、これらのドキュメントを活用しましょう。
【参考】:OpenAI ドキュメント 【参考】:OpenAI APIリファレンス
ChatGPTとWhisperを活用して業務を効率化しよう
本記事ではChatGPTとWhisperの活用方法を紹介しました。残念ながら、料金は無料ではありませんが、非常に定額で利用できるため、もし興味がある方は試しに利用してみましょう。
議事録や文字起こしの作業は、人間が行うと非常に時間がかかりますが、もしこのようなAIツールを利用すれば非常に短時間で業務をこなせます。
仕事を効率化したい方や煩雑な業務の負担を減らしたい方は、ぜひ本記事を参考にしつつChatGPTとWhisperを活用してみましょう。
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから