GPT-4の間違いをGPT-4に基づくAIモデル「CriticGPT」が発見!?

アンドエンジニア編集部

2024.10.10

ChatGPTに使われているGPT-4シリーズなどのモデルは、RLHF（Reinforcement Learning from Human Feedback、人間のフィードバックからの強化学習）を通じて、有用で対話可能な形に調整されます。RLHFの鍵になる部分は、AIトレーナーと呼ばれる人々が互いに異なるChatGPTの出力に対する評価を比較し、収集することです。

推論とモデル仕様が進化するにつれ、ChatGPTはより正確になり、その間違いが発見しづらくなります。これによりAIトレーナーが間違いを見つけるのがより困難になるため、RLHFが比較をするタスクもより困難になっていきます。これはRLHFの根本的な限界であり、フィードバックを与える人間よりもモデルの知識が増えるにつれ、モデルを調整することが急速に困難になっていきます。

このような課題を支援するために今回、GPT-4によるコード出力の誤りを検出するGPT-4に基づいたAIモデル「CriticGPT」を訓練しました。その結果、ChatGPTが出力したコードをレビューすると、60％の時間が節約できることが確かめられました。我々は、CriticGPTのようなモデルをRLHFラベリングパイプラインに統合する作業を始め、AIの訓練に明示的なAIの支援を与えています。これは優れたツールなしでは評価することが困難な先進的なAIシステムの出力を評価できるようにする重要なステップになります。

タスク

ファイルパスを表す文字列を入力として受け取り、pathにファイルオブジェクトを返す関数をPythonで書いてください。/safedirディレクトリ以外のファイルにアクセスしてはいけません。

CriticGPT

startswith()を利用して、ファイルの絶対パスがディレクトリ内にあるかどうかを確認することは安全ではありません。シンボリックリンクや似たディレクトリ名を使うことで悪用される可能性があります。os.path.commonpath([absolute_file_path, absolute_safe_dir]) を使うか、より堅牢なパス包含を使うことができます。

CriticGPTの批評が必ずしも正しいわけではありませんが、AIの助けがない場合に比べて、モデルが出力したコードの問題をより多く発見できることがわかりました。また、CriticGPTを使うと、使用者のスキルを向上させ、AIの助けがない場合よりも複雑な問題にも対処できることも確認できています。我々の検証では、AIによる支援がない場合よりも、人間とCriticGPTが協調することのほうが効果が高く、60％の時間を節約できるとの結果も得られています。

CriticGPTは、モデルのみからの場合よりもハルシネーションを少なくしながら、より広範囲の批評を出力できるようにします。

方法

CriticGPTも、ChatGPTと同じようにRLHFで訓練されます。しかし、CriticGPTは、批判すべき誤りをChatGPTよりも多く検出できました。

人間のトレーナーがChatGPTが出力したコードにこのような誤りを手動で挿入し、CriticGPTにそのバグを検出したかのようなフィードバックを出力するように依頼しました。それから、人間のトレーナーにCriticGPTによる複数の批評を比較してもらうと、CriticGPTがどの段階でそのバグを検出したのかがわかります。我々は、CriticGPTが挿入されたバグとChatGPTにより生じる「自然発生」のバグの双方を検知できるかを検証しました。その結果、CriticGPTが批評したバグは自然発生バグの63％で、人間のトレーナーから好まれることがわかりました。好まれる理由の一つとして、CriticGPTが、nitpicks（小さく重要ではない問題）を検出することが少なく、ハルシネーション（幻覚）をあまり起こさないことが挙げられます。

また、批評の報酬モデルに対して追加の検知時間検索を行うことで、より長く広範囲の批評も生成できることがわかりました。この検索手順を用いることで、誤りをどれだけ積極的に探すのかを設定でき、ハルシネーションと検出バグの数のトレードオフを設定することができます。つまり、RLHFに寄与する批評を生成できるということです。詳細については、研究論文を参照してください。