Porovnání údajů o tréninku DeepSeek-R1 a Llama 3.1

Jaké jsou klíčové rozdíly ve školení použitých pro DeepSeek-R1 a Llama 3.1

Údaje o školení pro DeepSeek-R1 a Llama 3.1 vykazují několik klíčových rozdílů, což odráží odlišné přístupy k vývoji modelu.

DeepSeek-R1 Training Data

DeepSeek-R1 je vyškolen pomocí vícestupňového procesu, který kombinuje učení výztuže (RL) s podřízeným jemným doladěním (SFT). Model začíná fází „studeného startu“, kde je vyladěn na malou sadu pečlivě vytvořených příkladů, aby se zlepšila jasnost a čitelnost. Poté následuje čistá RL pro zvýšení dovedností uvažování, podobně jako R1-Zero. V blízkosti RL konvergence model používá vzorkování odmítnutí k vytvoření syntetických dat výběrem nejlepších příkladů z předchozích běhů RL. Tato syntetická data jsou poté sloučena s daty pod dohledem z DeepSeek-V3-Base v doménách, jako je psaní, faktická QA a sebevědomí. Závěrečná fáze zahrnuje další kolo RL napříč různými výzvami a scénáři k dalšímu zobecnění schopností modelu [1] [4].

Llama 3.1 Data školení

Llama 3.1, na druhé straně, je vyškolena na masivním korpusu přibližně 15 bilionů žetonů z veřejně dostupných zdrojů, s datem odříznutí znalostí v prosinci 2023 [8]. Datový soubor školení zahrnuje vyváženou kombinaci obecných domén, matematických a uvažovacích dat, vícejazyčných textů a kódu z různých programovacích jazyků, aby se zlepšilo schopnosti generování kódu a porozumění [5]. Model prochází počátečním předškolním tréninkem pomocí objektivu predikce dalšího tónu, následovaným předškolním tréninkem s dlouhým kontextem pro zpracování dlouhých dokumentů a složitých úkolů uvažování. Směs dat je pečlivě upraven tak, aby zlepšil výkon u konkrétních úkolů, jako je zvýšení neanglických dat pro vícejazyčné schopnosti a zvednutí matematických dat pro lepší uvažování [2] [5].

Klíčové rozdíly

1. Přístup tréninku: DeepSeek-R1 se silně spoléhá na učení a generování syntetických dat, zatímco Llama 3.1 používá tradičnější přístup dohlíženého učení s masivním datovým souborem před tréninkem.

2. Zdroje dat: DeepSeek-R1 používá kombinaci počátečních dat studeného startu a syntetických dat generovaných během procesu RL. Naproti tomu je Llama 3.1 vyškolena na velký korpus veřejně dostupných údajů.

3. Objem a kvalita dat: Llama 3.1 je vyškolena na mnohem větší datové sadě (~ 15 bilionů tokenů) ve srovnání s relativně malým počátečním datovým souborem používaným pro DeepSeek-R1. Použití syntetických dat DeepSeek-R1 však umožňuje dosáhnout vysokého výkonu při uvažovacích úkolech navzdory menším počátečním datovému souboru.

4. Oblasti zaměření: Oba modely se zaměřují na zlepšení schopností uvažování a znalostí, ale DeepSeek-R1 klade silný důraz na uvažování prostřednictvím RL, zatímco Llama 3.1 se také zaměřuje na vícejazyčné a kódovací schopnosti.

Celkově údaje o školení pro Deepseek-R1 a Llama 3.1 odrážejí různé strategie ve vývoji modelu, přičemž DeepSeek-R1 využívá RL a syntetická data k dosažení silných schopností uvažování a Llama 3.1 se spoléhá na rozsáhlý pod dohledem k učení k pokrytí široké škály úkolů.

Citace:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-anday-to-use-it
[2] https://www.linkedin.com/pulse/Dissecting-llama-31-Deep-Dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-lms/llama-3-1-guide-what-to-now-out-meta-s-new-405b-model-and-ats-tata
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/Tutorial/fine-tuning-deepseek-r1-leasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-it-ranks-against-openais-o1