A DeepSeek-R1 és a Llama 3.1 képzési adatok összehasonlítása

Melyek a legfontosabb különbségek a DeepSeek-R1 és a Llama 3.1-hez használt képzési adatokban

A DeepSeek-R1 és a Llama 3.1 képzési adatai számos kulcsfontosságú különbséget mutatnak, tükrözve a modellfejlesztés megkülönböztetett megközelítéseit.

DeepSeek-R1 képzési adatok

A DeepSeek-R1-et egy többlépcsős folyamat felhasználásával képzik, amely ötvözi a megerősítés tanulását (RL) a felügyelt finomhangolással (SFT). A modell egy "hideg indítás" fázissal kezdődik, ahol finoman beállítva a gondosan kidolgozott példák kis sorozatán, hogy javítsák a tisztaságot és az olvashatóságot. Ezt a Pure RL követi az érvelési készségek javítása érdekében, hasonlóan az R1-Zero-hoz. Az RL konvergencia közelében a modell elutasító mintavételt használ a szintetikus adatok létrehozásához az előző RL -futások legjobb példáinak kiválasztásával. Ezeket a szintetikus adatokat ezután egyesítik a DeepSeek-V3-Base felügyelt adataival olyan területeken, mint az írás, a ténybeli minőségbiztosítás és az önfelismerés. Az utolsó szakasz az RL újabb fordulóját foglalja magában a különféle utasítások és forgatókönyvek között a modell képességeinek további általánosítása érdekében [1] [4].

láma 3.1 Képzési adatok

A Llama 3.1-et viszont körülbelül 15 trillió tokenből álló masszív korpuszon képzik a nyilvánosan elérhető forrásokból, 2023. decemberi tudáskori dátummal [8]. A képzési adatkészlet tartalmazza az általános domainek kiegyensúlyozott keverékét, a matematikai és érvelési adatokat, a többnyelvű szövegeket és a különféle programozási nyelvek kódját, hogy javítsa a kódgenerálást és a megértési képességeket [5]. A modell kezdeti előzetes edzésen megy keresztül egy következő előrejelzési célkitűzéssel, amelyet hosszú kontextus előmozdítás követ a hosszú dokumentumok és az összetett érvelési feladatok kezelésére. Az adatkeveréket gondosan beállítják az egyes feladatok teljesítményének javítása érdekében, például a nem angol nyelvű adatok növelése a többnyelvű képességekhez és a matematikai adatok felfelé történő mintavételi adatai a jobb érvelés érdekében [2] [5].

kulcsfontosságú különbségek

1. Képzési megközelítés: A DeepSeek-R1 nagymértékben támaszkodik a megerősítés tanulására és a szintetikus adatok előállítására, míg a Llama 3.1 egy hagyományosabb, felügyelt tanulási megközelítést alkalmaz egy hatalmas előzetes edzési adatkészlettel.

2. Adatforrások: A DeepSeek-R1 a kezdeti hidegindító adatok és az RL folyamat során előállított szintetikus adatok kombinációját használja. Ezzel szemben a Llama 3.1 egy nagy, nyilvánosan rendelkezésre álló adatok testén van képzése.

3. Adat mennyisége és minősége: A Llama 3.1 egy sokkal nagyobb adatkészletre (~ 15 trillió token) képzett, összehasonlítva a DeepSeek-R1-re használt viszonylag kis kezdeti adatkészlethez. A DeepSeek-R1 szintetikus adatok felhasználása azonban lehetővé teszi, hogy nagy teljesítményt érjen el az érvelési feladatokban a kisebb kezdeti adatkészlet ellenére.

4. Fókuszterületek: Mindkét modell az érvelés és a tudás képességeinek javítására összpontosít, de a DeepSeek-R1 nagy hangsúlyt fektet az RL-n keresztüli érvelésre, míg a Llama 3.1 a többnyelvű és kódolási képességekre is összpontosít.

Összességében a DeepSeek-R1 és a LLAMA 3.1 képzési adatai tükrözik a modellfejlesztés különböző stratégiáit, mivel a DeepSeek-R1 kihasználja az RL-t és a szintetikus adatokat az erős érvelési képességek elérése érdekében, és a LLAMA 3.1 nagyszabású felügyelt tanulási megközelítésre támaszkodik a feladatok széles skálájának lefedésére.

Idézetek:
[1] https://www.vellum.ai/blog/the-thraining-of-deepseek-r1-and-ways-touse-it
[2] https://www.linkedin.com/pulse/dissing-lama-31-dive-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-ganguage-models-llms/llama-3-1-guide-what-to-know-about-peta-snew-405b-model-d-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reason-model
[8] https://huggingface.co/meta-llana/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r--model-overview-and-how-it-tanks-against-openais-o1