GPT-4.5トレーニングデータと監督手法

GPT-4.5のトレーニングに使用された特定のデータセット

GPT-4.5は、公開されているデータ、データパートナーシップからの独自のデータ、および社内で開発されたカスタムデータセットの組み合わせなど、多様なデータセットでトレーニングされました。これらのデータセットは、モデルの堅牢な会話能力と世界の知識にまとめて貢献しています。ただし、使用されている正確なデータセットに関する具体的な詳細は、利用可能な情報で明示的に言及されていません。

トレーニングプロセスには、GPT-4o [1] [3]に使用されるものと同様に、監視された微調整(SFT)や人間のフィードバック(RLHF)からの補強学習などの従来の方法と組み合わせた新しい監督手法が含まれていました。モデルの開発には、スケーラブルなアライメント手法も含まれていました。この手法では、小規模なモデルがより大きなモデルの高品質のトレーニングデータを生成し、モデルの操縦性とニュアンスの理解を高めます[7]。

OpenAIのデータ処理パイプラインには、データの品質を維持し、潜在的なリスクを軽減するための厳密なフィルタリングが含まれています。高度なデータフィルタリングプロセスを使用して、モデルをトレーニングするときに個人情報の処理を減らします。さらに、彼らはモデレーションAPIと安全分類器の組み合わせを使用して、有害または敏感なコンテンツの使用を防ぎます[1]。

正確なデータセットは詳細ではありませんが、このアプローチでは、幻覚を少なくして実用的な問題の書き込み、プログラミング、解決などのタスクでGPT-4.5の機能をサポートするための広範な多様なデータ基盤を強調しています[1] [3]。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://towardsdatascience.com/what-gpt-4-brings-to-the-the-table-74e392a32ac3/
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.chatbase.co/blog/gpt-5
[5] https://www.wired.com/story/openai-gpt-45/
[6] https://www.datacamp.com/blog/everything-we-know-about-gpt-5
[7] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[8] https://arxiv.org/html/2404.07840v1