Сравнение данных обучения DeepSeek-R1 и Llama 3.1

Данные обучения для DeepSeek-R1 и Llama 3.1 демонстрируют несколько ключевых различий, отражающих различные подходы к разработке модели.

DeepSeek-R1 Данные обучения

DeepSeek-R1 обучается с использованием многоэтапного процесса, который сочетает в себе обучение подкрепления (RL) с контролируемой точной настройкой (SFT). Модель начинается с фазы «холодного старта», где она точно настроена на небольшом наборе тщательно продуманных примеров для улучшения ясности и читаемости. За этим следует чистый RL для улучшения навыков рассуждений, похожий на R1-Zero. Вблизи конвергенции RL, модель использует выборку отклонения для создания синтетических данных, выбирая лучшие примеры из предыдущих прогонов RL. Эти синтетические данные затем объединяются с контролируемыми данными из базы DeepSeek-V3 в таких областях, как письмо, фактический QA и самооценка. Последний этап включает в себя еще один раунд RL в разных подсказках и сценариях, чтобы дополнительно обобщать возможности модели [1] [4].

Llama 3.1 Данные обучения

Llama 3.1, с другой стороны, обучается массовому корпусу в размере приблизительно 15 триллионов токенов из общедоступных источников, с датой отсечения знаний в декабре 2023 года [8]. Обучающий набор данных включает в себя сбалансированное сочетание общих доменов, математических и рассуждений, многоязычных текстов и кода из различных языков программирования для улучшения генерации кода и понимания [5]. Модель подвергается начальному предварительному обучению, используя цель предсказания следующего ток, за которой следует предварительное обучение длительного контекста для обработки длинных документов и сложных задач рассуждения. Смесь данных тщательно скорректируется для повышения производительности по конкретным задачам, таким как увеличение неанглийских данных для многоязычных возможностей и математических данных для повышения для лучших рассуждений [2] [5].

Ключевые различия

1. Подход к обучению: DeepSeek-R1 в значительной степени зависит от обучения подкреплению и генерации синтетических данных, в то время как Llama 3.1 использует более традиционный подход к обучению контролируемого контроля с массовым набором данных перед тренировками.

2. Источники данных: DeepSeek-R1 использует комбинацию начальных данных о холодном начале и синтетических данных, генерируемых во время процесса RL. Напротив, Llama 3.1 обучается на большом корпусе общедоступных данных.

3. Объем и качество данных: Llama 3.1 обучается гораздо большему набору данных (~ 15 триллионов токенов) по сравнению с относительно небольшим начальным набором данных, используемым для DeepSeek-R1. Тем не менее, использование DeepSeek-R1 синтетических данных позволяет им достигать высокой производительности в задачах рассуждения, несмотря на меньший начальный набор данных.

4. Основные области: обе модели сосредоточены на улучшении мышления и возможностей знаний, но Deepseek-R1 уделяет упор на рассуждениях через RL, в то время как Llama 3.1 также фокусируется на многоязычных и кодировочных возможностях.

В целом, данные обучения для DeepSeek-R1 и Llama 3.1 отражают различные стратегии в разработке моделей, причем DeepSeek-R1 использует RL и синтетические данные для достижения сильных возможностей рассуждений, а Llama 3.1 полагается на широкомасштабный подход к обучению, чтобы охватить широкий спектр задач.

Цитаты:
[1] https://www.vellum.ai/blog/the training-of-deepseek-r1-and-way-to-use-it
[2] https://www.linkedin.com/pulse/dissing-lama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-consabout-meta-s-new-405b-model-and-it- data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reessing-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1

Каковы основные различия в учебных данных, используемых для DeepSeek-R1 и Llama 3.1

DeepSeek-R1 Данные обучения

Llama 3.1 Данные обучения

Ключевые различия