DeepSeek-R1およびLlama 3.1のトレーニングデータは、モデル開発への明確なアプローチを反映して、いくつかの重要な違いを示しています。
DeepSeek-R1トレーニングデータ
DeepSeek-R1は、強化学習(RL)と監視付き微調整(SFT)を組み合わせたマルチステージプロセスを使用してトレーニングされています。モデルは「コールドスタート」フェーズから始まり、明確さと読みやすさを向上させるために、慎重に作成された例で微調整されています。これに続いて、R1-Zeroと同様の推論スキルを高めるために純粋なRLが続きます。 RL収束に近いモデルは、以前のRL実行から最適な例を選択することにより、拒否サンプリングを使用して合成データを作成します。この合成データは、執筆、事実上のQA、自己認知などのドメインのDeepSeek-V3-baseの監視されたデータと統合されます。最終段階では、モデルの機能をさらに一般化するために、多様なプロンプトとシナリオ全体のRLの別のラウンドが含まれます[1] [4]。
llama 3.1トレーニングデータ
一方、Llama 3.1は、2023年12月の知識カットオフ日で、公的に利用可能なソースから約15兆個のトークンの巨大なコーパスで訓練されています[8]。トレーニングデータセットには、一般的なドメインのバランスの取れたミックス、数学と推論データ、多言語テキスト、およびさまざまなプログラミング言語のコードが含まれており、コード生成と理解能力を強化します[5]。このモデルは、次のトークン予測目標を使用して初期のトレーニングを受け、その後、長い文書と複雑な推論タスクを処理するための長いコンテキストの事前トレーニングが続きます。データミックスは、多言語機能の英語データの増加や、より良い推論のために数学データをアップサンプリングするなど、特定のタスクのパフォーマンスを改善するために慎重に調整されています[2] [5]。
###キーの違い
1。トレーニングアプローチ:DeepSeek-R1は、強化学習と合成データ生成に大きく依存していますが、Llama 3.1は、大規模なトレーニング前のデータセットを使用して、より伝統的な監視された学習アプローチを使用しています。
2。データソース:DeepSeek-R1は、RLプロセス中に生成された初期コールドスタートデータと合成データの組み合わせを使用します。対照的に、Llama 3.1は、公開されているデータの大きなコーパスでトレーニングされています。
3。データのボリュームと品質:Llama 3.1は、DeepSeek-R1に使用される比較的小さな初期データセットと比較して、はるかに大きなデータセット(約15兆トークン)でトレーニングされています。ただし、DeepSeek-R1の合成データの使用により、初期データセットが小さいにもかかわらず、推論タスクで高性能を実現できます。
4.フォーカス領域:両方のモデルは推論と知識の能力の向上に焦点を当てていますが、DeepSeek-R1はRLを通じて推論に重点を置いていますが、Llama 3.1は多言語およびコーディング機能にも焦点を当てています。
全体として、DeepSeek-R1およびLlama 3.1のトレーニングデータは、モデル開発におけるさまざまな戦略を反映しており、DeepSeek-R1がRLと合成データを活用して強力な推論能力を実現し、LLAMA 3.1が幅広いタスクをカバーするための大規模な監視された学習アプローチに依存しています。
引用:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-ned-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-know-about-meta-new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-raisoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1