Deepseek-R1: Überwindung der Sprachmischung durch Verstärkungslernen und beaufsichtigte Feinabstimmung

Wie handelt es sich bei Deepseek-R1 um Sprachmischprobleme?

Deepseek-R1 befasst sich mit Problemen mit Sprachmischung durch einen mehrstufigen Trainingsprozess, der das Verstärkungslernen (RL) mit beaufsichtigter Feinabstimmung (SFT) kombiniert. Zunächst beginnt das Modell mit einer Basisversion (Deepseek-V3-Base), die mit einer kleinen Reihe von "Cold-Start" -Daten fein abgestimmt ist, was hilft, eine strukturierte Grundlage für das Verständnis verschiedener Sprachen und Kontexte zu verstehen [1] [2 ].

Das Modell verwendet dann reine RL -Techniken, um seine Argumentationsfähigkeiten zu verbessern. Während des Trainings wurde jedoch beobachtet, dass Sprachmischung auftreten kann, insbesondere bei der Behandlung von Abfragen in anderen Sprachen als Englisch oder Chinesisch. Zum Beispiel kann Deepseek-R1 für Argumentation und Antworten standardmäßig Englisch und Antworten in einer anderen Sprache [5] [6] standardmäßig auftreten. Um dies zu mildern, verwendet das Modell Ableitungsstichproben, um synthetische Trainingsdaten aus erfolgreichen RL-Läufen zu generieren, die dann mit hochwertigen beaufsichtigten Daten aus verschiedenen Domänen zusammengeführt werden. Dieser Prozess verbessert die Anpassungsfähigkeit des Modells an verschiedene Sprachen und verringert die Wahrscheinlichkeit, Sprachen in Antworten zu mischen [1] [4].

Darüber hinaus zielt die laufende Forschung darauf ab, Deepseek-R1 für eine bessere Leistung in einem breiteren Bereich von Sprachen zu optimieren und gleichzeitig seine aktuellen Einschränkungen bei der effektiven Handhabung von Eingaben mit gemischter Sprache anzugehen. Zukünftige Updates werden voraussichtlich seine Fähigkeiten in diesem Bereich verfeinern und seine Reaktionsfähigkeit und Genauigkeit verbessern, wenn sie mit Benutzern in verschiedenen sprachlichen Kontexten interagieren [2] [5].

Zitate:
[1] https://www.vellum.ai/blog/the-training-of-peepseek-r1-ways-to-se-use-it
[2] https://adasci.org/mastering-lms-reasoning-capability-bithepseek-r1/
[3] https://www.reddit.com/r/localllama/comportment/iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_loguage/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1