Vergleich von Deepseek-R1 und Lama 3.1 Trainingsdaten

Was sind die wichtigsten Unterschiede in den Trainingsdaten für Deepseek-R1 und Lama 3.1

Die Trainingsdaten für Deepseek-R1 und LLAMA 3.1 zeigen mehrere wichtige Unterschiede und spiegeln unterschiedliche Ansätze für die Modellentwicklung wider.

Deepseek-R1 Trainingsdaten

Deepseek-R1 wird mit einem mehrstufigen Prozess geschult, der das Verstärkungslernen (RL) mit beaufsichtigter Feinabstimmung (SFT) kombiniert. Das Modell beginnt mit einer "kalten Start" -Phase, in der es in einem kleinen Satz sorgfältig gefertigter Beispiele fein abgestimmt ist, um die Klarheit und Lesbarkeit zu verbessern. Darauf folgt reine RL, um die Fähigkeiten der Argumente zu verbessern, ähnlich wie R1-Null. In der Nähe der RL -Konvergenz verwendet das Modell Ableitungsabtastungen, um synthetische Daten zu erstellen, indem die besten Beispiele aus früheren RL -Läufen ausgewählt werden. Diese synthetischen Daten werden dann mit beaufsichtigten Daten von Deepseek-V3-Base in Domänen wie Schreiben, sachlicher QA und Selbstkognition zusammengeführt. Die letzte Phase umfasst eine weitere Runde von RL über verschiedene Eingabeaufforderungen und Szenarien, um die Fähigkeiten des Modells weiter zu verallgemeinern [1] [4].

Lama 3.1 Trainingsdaten

Lama 3.1 hingegen wird auf einem massiven Korpus von ungefähr 15 Billionen Token aus öffentlich verfügbaren Quellen ausgebildet. Der Trainingsdatensatz enthält eine ausgewogene Mischung aus allgemeinen Domänen, mathematischen und Argumentationsdaten, mehrsprachigen Texten und Code aus verschiedenen Programmiersprachen, um die Funktionen der Code zu verbessern und die Funktionen zu verstehen [5]. Das Modell wird anfänglich vor der Ausbildung unter Verwendung eines nächsten Vorhersage-Ziels vorhanden, gefolgt von lang kontextübergreifendem Vorbild, um lange Dokumente und komplexe Argumentationsaufgaben zu erledigen. Der Datenmix wird sorgfältig angepasst, um die Leistung bei bestimmten Aufgaben zu verbessern, z. B. die Erhöhung nicht englischer Daten für mehrsprachige Funktionen und die Auftastung mathematischer Daten für eine bessere Argumentation [2] [5].

Schlüsselunterschiede

1. Trainingsansatz: Deepseek-R1 stützt sich stark auf das Lernen der Verstärkung und die Erzeugung der synthetischen Daten, während LLAMA 3.1 einen traditionelleren, beaufsichtigten Lernansatz mit einem massiven Datensatz vor dem Training verwendet.

2. Datenquellen: Deepseek-R1 verwendet eine Kombination aus anfänglichen Kaltstarts und synthetischen Daten, die während des RL-Prozesses generiert wurden. Im Gegensatz dazu wird Lama 3.1 auf einem großen Korpus öffentlich verfügbarer Daten geschult.

3. Datenvolumen und Qualität: LLAMA 3.1 wird in einem viel größeren Datensatz (~ 15 Billionen Token) im Vergleich zu dem für Deepseek-R1 verwendeten relativ kleinen anfänglichen Datensatz trainiert. Die Verwendung synthetischer Daten durch Deepseek-R1 ermöglicht es jedoch, trotz des kleineren anfänglichen Datensatzes eine hohe Leistung bei den Argumentationsaufgaben zu erzielen.

4. Fokusbereiche: Beide Modelle konzentrieren sich auf die Verbesserung der Argumentations- und Wissensfunktionen, aber Deepseek-R1 legt einen starken Schwerpunkt auf Argumentation durch RL, während sich LLAM 3.1 auch auf mehrsprachige und kodierende Funktionen konzentriert.

Insgesamt spiegeln die Trainingsdaten für Deepseek-R1 und LLAMA 3.1 unterschiedliche Strategien in der Modellentwicklung wider, wobei Deepseek-R1 RL und synthetische Daten nutzt, um starke Argumentationsfunktionen zu erzielen, und Lama 3.1, die sich auf einen großqualifizierten Lernansatz stützen, um eine breite Palette von Aufgaben abzudecken.

Zitate:
[1] https://www.vellum.ai/blog/the-training-of-peepseek-r1-ways-to-se-use-it
[2] https://www.linkedin.com/pulse/dissecting-lama-31-leep-dive-bedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-lms/llama-3-1-guide-what-to-know-about-meta-new-405b-model-and-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-teepseek-r1-r1poning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1