Vergelijking van Deepseek-R1 en LLAMA 3.1 Trainingsgegevens

Wat zijn de belangrijkste verschillen in de trainingsgegevens die worden gebruikt voor Deepseek-R1 en LLAMA 3.1

De trainingsgegevens voor Deepseek-R1 en LLAMA 3.1 vertonen verschillende belangrijke verschillen, wat een weerspiegeling is van verschillende benaderingen van modelontwikkeling.

Deepseek-R1 trainingsgegevens

DeepSeek-R1 wordt getraind met behulp van een multi-fase proces dat versterkingsleren (RL) combineert met begeleide verfijning (SFT). Het model begint met een "koude start" -fase, waar het wordt afgestemd op een kleine reeks zorgvuldig vervaardigde voorbeelden om de duidelijkheid en leesbaarheid te verbeteren. Dit wordt gevolgd door pure RL om redeneervaardigheden te verbeteren, vergelijkbaar met R1-Zero. In de buurt van RL -convergentie maakt het model gebruik van afwijzingsbemonstering om synthetische gegevens te maken door de beste voorbeelden van eerdere RL -runs te selecteren. Deze synthetische gegevens worden vervolgens samengevoegd met begeleide gegevens van Deepseek-V3-Base in domeinen zoals schrijven, feitelijke QA en zelfkennis. De laatste fase omvat een nieuwe ronde van RL over verschillende prompts en scenario's om de mogelijkheden van het model verder te generaliseren [1] [4].

LLAMA 3.1 Trainingsgegevens

LLAMA 3.1 daarentegen is getraind op een enorm corpus van ongeveer 15 biljoen tokens uit openbaar beschikbare bronnen, met een kennisdatum van de kennis van december 2023 [8]. De trainingsdataset bevat een evenwichtige mix van algemene domeinen, wiskundige en redeneringsgegevens, meertalige teksten en code uit verschillende programmeertalen om code -generatie en begripvolle mogelijkheden te verbeteren [5]. Het model ondergaat initiële pre-training met behulp van een darmdoel van de volgende token, gevolgd door pre-training voor lange context om lange documenten en complexe redeneringstaken aan te kunnen. De gegevensmix wordt zorgvuldig aangepast om de prestaties bij specifieke taken te verbeteren, zoals het vergroten van niet-Engelse gegevens voor meertalige mogelijkheden en wiskundige gegevens van up-sampling voor beter redeneren [2] [5].

Belangrijkste verschillen

1. Trainingsaanpak: Deepseek-R1 is sterk afhankelijk van het leren van versterking en het genereren van synthetische gegevens, terwijl LLAMA 3.1 een meer traditionele begeleide leerbenadering gebruikt met een enorme dataset voor de training.

2. Gegevensbronnen: Deepseek-R1 maakt gebruik van een combinatie van initiële koude startgegevens en synthetische gegevens die tijdens het RL-proces worden gegenereerd. Lama 3.1 daarentegen is getraind op een groot corpus van openbaar beschikbare gegevens.

3. Gegevensvolume en kwaliteit: LLAMA 3.1 is getraind op een veel grotere dataset (~ 15 biljoen tokens) vergeleken met de relatief kleine initiële gegevensset die wordt gebruikt voor Deepseek-R1. Door het gebruik van synthetische gegevens van Deepseek-R1 kan het echter ondanks de kleinere initiële gegevensset hoge prestaties bereiken in redeneringstaken.

4. Focusgebieden: beide modellen richten zich op het verbeteren van de redenering en kennismogelijkheden, maar Deepseek-R1 legt een sterke nadruk op redeneren via RL, terwijl LLAMA 3.1 zich ook richt op meertalige en coderingsmogelijkheden.

Over het algemeen weerspiegelen de trainingsgegevens voor Deepseek-R1 en LLAMA 3.1 verschillende strategieën in modelontwikkeling, waarbij Deepseek-R1 RL en synthetische gegevens benutten om sterke redeneermogelijkheden te bereiken en LLAMA 3.1 te vertrouwen op een grootschalige begeleid leerbenadering om een breed scala aan taken te dekken.

Citaten:
[1] https://www.vellum.ai/blog/the-train-of-deepseek-r1-and-ways-to-use -it
[2] https://www.linkedin.com/pulse/dissecting-lama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-intruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-ben-about-meta-snew-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-radening-model
[8] https://huggingface.co/meta-lama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1