ChatGPTに使われているGPT-4シリーズなどのモデルは、RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックからの強化学習)を通じて、有用で対話可能な形に調整されます。RLHFの鍵になる部分は、AIトレーナーと呼ばれる人々が互いに異なるChatGPTの出力に対する評価を比較し、収集することです。
推論とモデル仕様が進化するにつれ、ChatGPTはより正確になり、その間違いが発見しづらくなります。これによりAIトレーナーが間違いを見つけるのがより困難になるため、RLHFが比較をするタスクもより困難になっていきます。これはRLHFの根本的な限界であり、フィードバックを与える人間よりもモデルの知識が増えるにつれ、モデルを調整することが急速に困難になっていきます。
このような課題を支援するために今回、GPT-4によるコード出力の誤りを検出するGPT-4に基づいたAIモデル「CriticGPT」を訓練しました。その結果、ChatGPTが出力したコードをレビューすると、60%の時間が節約できることが確かめられました。我々は、CriticGPTのようなモデルをRLHFラベリングパイプラインに統合する作業を始め、AIの訓練に明示的なAIの支援を与えています。これは優れたツールなしでは評価することが困難な先進的なAIシステムの出力を評価できるようにする重要なステップになります。
タスク
ファイルパスを表す文字列を入力として受け取り、pathにファイルオブジェクトを返す関数をPythonで書いてください。/safedirディレクトリ以外のファイルにアクセスしてはいけません。
CriticGPT
startswith()を利用して、ファイルの絶対パスがディレクトリ内にあるかどうかを確認することは安全ではありません。シンボリックリンクや似たディレクトリ名を使うことで悪用される可能性があります。os.path.commonpath([absolute_file_path, absolute_safe_dir]) を使うか、より堅牢なパス包含を使うことができます。
CriticGPTの批評が必ずしも正しいわけではありませんが、AIの助けがない場合に比べて、モデルが出力したコードの問題をより多く発見できることがわかりました。また、CriticGPTを使うと、使用者のスキルを向上させ、AIの助けがない場合よりも複雑な問題にも対処できることも確認できています。我々の検証では、AIによる支援がない場合よりも、人間とCriticGPTが協調することのほうが効果が高く、60%の時間を節約できるとの結果も得られています。
方法
CriticGPTも、ChatGPTと同じようにRLHFで訓練されます。しかし、CriticGPTは、批判すべき誤りをChatGPTよりも多く検出できました。
人間のトレーナーがChatGPTが出力したコードにこのような誤りを手動で挿入し、CriticGPTにそのバグを検出したかのようなフィードバックを出力するように依頼しました。それから、人間のトレーナーにCriticGPTによる複数の批評を比較してもらうと、CriticGPTがどの段階でそのバグを検出したのかがわかります。我々は、CriticGPTが挿入されたバグとChatGPTにより生じる「自然発生」のバグの双方を検知できるかを検証しました。その結果、CriticGPTが批評したバグは自然発生バグの63%で、人間のトレーナーから好まれることがわかりました。好まれる理由の一つとして、CriticGPTが、nitpicks(小さく重要ではない問題)を検出することが少なく、ハルシネーション(幻覚)をあまり起こさないことが挙げられます。
また、批評の報酬モデルに対して追加の検知時間検索を行うことで、より長く広範囲の批評も生成できることがわかりました。この検索手順を用いることで、誤りをどれだけ積極的に探すのかを設定でき、ハルシネーションと検出バグの数のトレードオフを設定することができます。つまり、RLHFに寄与する批評を生成できるということです。詳細については、研究論文を参照してください。
制限
- 我々は非常に短いChatGPTの出力で、CriticGPTを訓練しました。将来のエージェントを監督するには、より長く複雑なタスクも理解できるようにする手法の開発が必要になります。
- モデルはまだハルシネーションを起こし、時にはトレーナーがハルシネーションによるラベリング間違いを犯します。
- 現実世界での誤りは、出力結果のさまざまな部分に影響をすることがあります。現在は、一カ所で起こる誤りに焦点をあてていますが、将来は分散する誤りにも取り組む必要があります。
- CriticGPTには限界があります。タスクや出力結果が非常に複雑な場合、CriticGPTのようなモデルの助けを借りた専門家でも、正しく評価できないこともあり得ます。
次のステップ
ますます複雑化するAIシステムを調整するには、より優れたツールが必要になります。GPT-4にRLHFを適用することは、人間がより優れたRLHFデータを生成するのに役立つ可能性があることがわかりました。この取り組みをさらに拡大し、実践していく予定です。
【記事出典】OpenAIプレスリリース「Finding GPT-4’s mistakes with GPT-4」
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから