DeepSeek-R1: Overvinde sprogblanding gennem forstærkningslæring og overvåget finjustering

Hvordan håndterer DeepSeek-R1-sprog blandingsproblemer

DeepSeek-R1 adresserer sprogblandingsproblemer gennem en træningsproces i flere trin, der kombinerer forstærkningslæring (RL) med overvåget finjustering (SFT). Oprindeligt starter model ].

Modellen anvender derefter rene RL -teknikker til at forbedre dens ræsonnementsfunktioner. Under træningen blev det imidlertid observeret, at sprogblanding kunne forekomme, især når man håndterer forespørgsler på andre sprog end engelsk eller kinesisk. F.eks. Kan DeepSeek-R1 være standard til engelsk for ræsonnement og svar, selvom input er på et andet sprog [5] [6]. For at afbøde dette anvender modellen afvisningsprøvetagning til at generere syntetiske træningsdata fra vellykkede RL-kørsler, som derefter fusioneres med overvågede data af høj kvalitet fra forskellige domæner. Denne proces hjælper med at forbedre modellens tilpasningsevne til forskellige sprog og reducerer sandsynligheden for at blande sprog i svar [1] [4].

Endvidere sigter løbende forskning at optimere DeepSeek-R1 for bedre ydeevne på tværs af et bredere spektrum af sprog, mens de adresserer dens nuværende begrænsninger i håndtering af blandede sproglige input effektivt. Fremtidige opdateringer forventes at forfine sine kapaciteter på dette område, hvilket forbedrer dens lydhørhed og nøjagtighed, når de interagerer med brugere i forskellige sproglige sammenhænge [2] [5].

Citater:
[1] https://www.vellum.ai/blog/the-training- af-deepseek-r1-og-veje-til-brug-it
[2] https://adasci.org/mastering-llms-reasoning-capability-with deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-i/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-i/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1