Порівняння даних про навчання DeepSeek-R1 та Llama 3.1

Дані про навчання для DeepSeek-R1 та LLAMA 3.1 демонструють кілька ключових відмінностей, що відображають чіткі підходи до розвитку моделі.

DeepSeek-R1 Дані про навчання

DeepSeek-R1 навчається за допомогою багатоступеневого процесу, який поєднує в собі підсилення (RL) з контрольованою тонкою настройкою (SFT). Модель починається з фази "холодного старту", де вона тонко налаштована на невеликому наборі ретельно складених прикладів для підвищення чіткості та читабельності. Далі йде чистий RL для підвищення навичок міркувань, подібних до R1-нуль. Поруч з конвергенцією RL модель використовує вибірку відхилення для створення синтетичних даних, вибираючи найкращі приклади з попередніх RL -запусків. Потім ці синтетичні дані об'єднуються з контрольованими даними з базової бази DeepSeek-V3 у таких областях, як написання, фактична QA та самопізнання. Заключний етап передбачає ще один раунд RL через різноманітні підказки та сценарії для подальшого узагальнення можливостей моделі [1] [4].

llama 3.1 Дані про навчання

Llama 3.1, з іншого боку, проходить навчання на масивному корпусі приблизно 15 трильйонів жетонів із загальнодоступних джерел, з датою скорочення знань від грудня 2023 року [8]. Набір даних про навчання включає збалансовану суміш загальних доменів, математичних та міркування даних, багатомовних текстів та коду з різних мов програмування для покращення генерування коду та розуміння можливостей [5]. Модель зазнає початкового попереднього тренінгу, використовуючи наступну мету прогнозування з подальшим попереднім тренуванням довгого контексту для обробки довгих документів та складних завдань міркувань. Суміш даних ретельно коригується для підвищення продуктивності конкретних завдань, таких як збільшення неанглійських даних для багатомовних можливостей та математичних даних, що знаходяться в рамках, для кращих міркувань [2] [5].

Ключові відмінності

1. Навчальний підхід: DeepSeek-R1 в значній мірі покладається на навчання підкріплення та генерацію синтетичних даних, тоді як Llama 3.1 використовує більш традиційний підхід до навчання з масовим набору даних попереднього тренування.

2. Джерела даних: DeepSeek-R1 використовує комбінацію початкових даних про холодний початок та синтетичних даних, що генеруються під час процесу RL. На відміну від цього, LLAMA 3.1 проходить навчання на великому корпусі загальнодоступних даних.

3. Об'єм та якість даних: LLAMA 3.1 навчається на значно більшому наборі даних (~ 15 трлн жетонів) порівняно з відносно невеликим початковим набором даних, що використовується для DeepSeek-R1. Однак використання синтетичних даних DeepSeek-R1 дозволяє йому досягти високої продуктивності в міркувальних завданнях, незважаючи на менший початковий набір даних.

4. Фокусні сфери: обидві моделі зосереджуються на вдосконаленні міркувань та можливостей знань, але DeepSeek-R1 робить сильний акцент на міркуванні через RL, а LLAMA 3.1 також зосереджується на багатомовних та кодувальних можливостях.

В цілому, дані про навчання для DeepSeek-R1 та LLAMA 3.1 відображають різні стратегії розвитку моделі, при цьому DeepSeek-R1 використовує RL та синтетичні дані для досягнення сильних можливостей міркувань та LLAMA 3.1, що покладаються на масштабний підхід до навчання, щоб охопити широкий спектр завдань.

Цитати:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-bendict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-know-about-meta-new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-rasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1

Які ключові відмінності в навчальних даних, що використовуються для DeepSeek-R1 та LLAMA 3.1

DeepSeek-R1 Дані про навчання

llama 3.1 Дані про навчання

Ключові відмінності