Deepseek R1 verbessert seine Argumentationsfunktionen durch einen neuartigen Ansatz für Verstärkungslernen (RL), der sich von traditionellen, beaufsichtigten Fine-Tuning-Methoden (SFT) abweist. Diese innovative Strategie ermöglicht es dem Modell, die Fähigkeiten der Argumente unabhängig und effizient zu entwickeln.
Verstärkungslernrahmen
Deepseek R1 verwendet die Relativpolitikoptimierung (GRPO), ein regelbasiertes RL-Framework, das es dem Modell ermöglicht, aus Versuch und Irrtum zu lernen, ohne sich auf vorgefertigte Datensätze zu verlassen. Dieser Ansatz ermöglicht es dem Modell, einen riesigen Lösungsraum zu untersuchen und einzigartige Argumentationsmuster und -strategien zu entdecken, die möglicherweise nicht in beaufsichtigten Trainingsdaten vorhanden sind [1] [2] [4]. Durch Anreiz von Argumentation während des RL-Prozesses kann Deepseek R1 kohärente Denkketten erzeugen und sich auf Selbstverifizierung und Reflexion einlassen, die für eine komplexe Problemlösung von entscheidender Bedeutung sind [4].
mehrstufiger Trainingsprozess
Die Ausbildung von Deepseek R1 ist in mehrere Phasen unterteilt:
1. Kaltstartphase: Das Modell beginnt mit einer kleinen Menge hochwertiger, beaufsichtigter Daten, die von seinem Vorgänger Deepseek R1-Zero gesammelt wurden. Diese Phase hilft, Probleme wie schlechte Lesbarkeit und Sprachmischung zu mildern, die in früheren Modellen beobachtet wurden [1] [2].
2. Argumentationsorientierte RL: Nach dem kalten Start wird das Modell umfangreicher argumentationsorientierter RL-Training durchgeführt. Diese Phase konzentriert sich auf die Verbesserung der Fähigkeiten in bestimmten Bereichen wie Codierung, Mathematik und Logik, bei denen klare Lösungen mit Belohnungsregeln definiert werden können [3] [4].
3.. Feinabstimmung mit neuen Daten: Nach dem ersten RL-Training werden neue beaufsichtigte Daten durch Ableitungsstichproben generiert, basierend auf dem RL-Checkpoint. Diese Daten werden dann zur weiteren Feinabstimmung verwendet, sodass das Modell seine Argumentationsfähigkeiten über verschiedene Aufgaben hinweg verfeinern kann [1] [2].
Leistungsergebnisse
Das Ergebnis dieses strengen Trainingsprozesses ist ein Modell, das die Leistungsstufen erzielt, die mit führenden Modellen wie O1-1217 von OpenAI über Argumentationsaufgaben vergleichbar ist. Beispielsweise zeigte Deepseek R1 signifikante Verbesserungen der Benchmarks, wobei die Passraten bei Aime 2024 -Aufgaben von 15,6% auf 71% stiegen und seine verbesserten Argumentationsfähigkeiten zeigen [1] [2].
Zusammenfassend lässt sich sagen, dass der Ansatz von Deepseek R1 nicht nur das unabhängige Denken fördert, sondern auch die Effizienz der Problemlösung erhöht, indem die Abhängigkeit von umfangreichen überwachten Datensätzen minimiert. Dies positioniert es als mächtiges Werkzeug in der Landschaft großer Sprachmodelle.
Zitate:[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-outperforming-open-ai-s-o1-at-95-less-cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-peepseek-r1-ways-to-use-it-it