DeepSeek-R1和Llama 3.1培训数据的比较

DeepSeek-R1和Llama 3.1使用的培训数据的主要区别是什么

DeepSeek-R1和Llama 3.1的训练数据表现出几种关键差异，反映了模型开发的不同方法。

DeepSeek-R1培训数据

DeepSeek-R1是使用多阶段过程训练的，该过程将加固学习(RL)与监督的微调(SFT)相结合。该模型从“冷启动”阶段开始，该阶段在一小部分精心设计的示例中进行了微调，以提高清晰度和可读性。接下来是纯RL，以增强推理技能，类似于R1-Zero。接近RL收敛，该模型使用拒绝采样来通过选择以前的RL运行中的最佳示例来创建综合数据。然后将这些综合数据与来自DeepSeek-V3基础的监督数据合并，例如写作，事实质量质量质量认知和自我认知。最后阶段涉及在各种提示和场景中的另一轮RL，以进一步概括模型的功能[1] [4]。

###骆驼3.1培训数据

另一方面，Llama 3.1接受了大约15万亿个代币的大规模培训，这些代币的公共来源是2023年12月的知识截止日期[8]。培训数据集包括一般域，数学和推理数据，多语言文本以及来自各种编程语言的代码的平衡组合，以增强代码生成和理解能力[5]。该模型使用下一步的预测目标进行初始预训练，然后进行长期培训，以处理长文档和复杂的推理任务。仔细调整数据组合以提高特定任务的性能，例如增加非英语数据以用于多语言功能和上采样数学数据以更好地推理[2] [5]。

###密钥差异

1。培训方法：DeepSeek-R1在很大程度上依赖增强学习和合成数据，而Llama 3.1使用更传统的监督学习方法，并具有大量的预培训数据集。

2。数据源：DeepSeek-R1结合了RL过程中生成的初始冷启动数据和合成数据的组合。相比之下，Llama 3.1接受了大量公开数据的培训。

3。数据量和质量：Llama 3.1在更大的数据集(约15万亿个代币)上进行了培训，而DeepSeek-R1的初始数据集相比相比。但是，尽管初始数据集较小，但DeepSeek-R1使用合成数据可以在推理任务中实现高性能。

4。焦点领域：这两种模型都侧重于提高推理和知识能力，但是DeepSeek-R1非常重视通过RL推理，而Llama 3.1也侧重于多语言和编码功能。

总体而言，DeepSeek-R1和Llama 3.1的培训数据反映了模型开发中的不同策略，DeepSeek-R1利用RL和合成数据来实现强大的推理能力，而Llama 3.1依赖于大规模监督的学习方法来涵盖广泛的任务。

引用：
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-lange-models-llms/llama-3-1-guide-what-what-to-what-to-know-about-meta-s-new-new-405b-model-and-ista
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-rounationing-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-intruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-in-rank-ranks-against-openais-o1