„Deepseek-R1-Zero“: Pažanga ir apribojimai samprotavimuose ir našume

Kokie yra pagrindiniai „DeepSeeek-R1-Zero“ apribojimai

„Deepseek-R1-Zero“, kartu parodydamas reikšmingą samprotavimo galimybių pažangą per stiprinimo mokymąsi, turi keletą pastebimų apribojimų:

** Kalbos maišymo ir darnos problemos: Vienas iš pagrindinių iššūkių yra modelio tendencija gaminti rezultatus, kurie maišo kalbas, ypač anglų ir kinų kalbas. Tai lemia atsakymus, kurie gali būti nenuoseklūs ar sunkiai suprantami, ypač kai įvesties užklausa yra viena kalba [1] [4].

** Prastas skaitomumas: modelio išėjimų skaitomumas dažnai kenkia. Vartotojai pranešė apie formatavimo ir aiškumo problemas, todėl sunku sekti samprotavimo procesą ar galutinius modelio pateiktus atsakymus [3] [5].

** Prižiūrimos derinimo trūkumas: „Deepseek-R1-Zero“ buvo sukurtas be pradinio prižiūrimo tobulinimo, kuris riboja jo sugebėjimą generuoti visiškai poliruotus ir žmogaus suderintus rezultatus. Šis patobulinimo nebuvimas gali sukelti mažiau patikimą atsakymą, palyginti su modeliais, kuriuose yra prižiūrimi mokymosi metodai [1] [3].

** Begalinis pasikartojimas: modelis kartais pasireiškia pasikartojančiu elgesiu savo atsakymuose, kuris gali sumenkinti bendrą ryšio vartotojo patirtį ir efektyvumą [5] [7].

** Kodavimo užduočių atlikimo kintamumas: Nors „Deepseek-R1-Zero“ rodo tvirtus samprotavimo užduotis, jis blogai atlieka kodavimo iššūkius, tai rodo, kad jo galimybės gali būti ne tokios patikimos visoms užduoties tipams [1] [2].

Šie apribojimai paskatino tolesnes plėtros pastangas, todėl buvo sukurta „Deepseek-R1“, kuria siekiama išspręsti šiuos trūkumus įtraukiant prižiūrimus metodus ir pagerinant bendrą veiklą.

Citatos:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://arxiv.org/html/2501.12948v1
[3] https://www.gocodeo.com/post/deepseek-r1-and-deepseek-r1- Zero
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://huggingface.co/deepseek-ai/deepseeek-r1-aero
[6] https://adaci.org/masterling-llms-reasoning-capability-with-deepseek-r1/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://arxiv.org/pdf/2501.12948.pdf