Deepseek uporablja različne napredne algoritme strojnega učenja za ustvarjanje formule in matematično sklepanje, zlasti pri modelih, kot je Deepseek R1. Tu je podroben pregled uporabljenih specifičnih tehnik:
1. CHAIN-OF-PUID (COT) Pozivi: Deepseek R1 uporablja dolge verige misli za izboljšanje matematičnega sklepanja. To vključuje strukturiranje pozivov na način, ki vodi model s postopki sklepanja po korakih, podobno kot ljudje rešujejo zapletene težave [2]. Z ustvarjanjem podatkov o sintetičnem treningu, ki temeljijo na teh posteljiščih, lahko Deepseek R1 izboljša svojo sposobnost za učinkovitejše reševanje matematičnih problemov kot večji modeli.
2. Nadzorno nastavitev hladnega začetka: Sprva se Deepseek R1 podvrže natančnemu nastavitvi hladnega začetka s kompaktnim naborom podatkov, ki vsebuje sklepanje po korakih. Ta začetna stopnja postavlja trden temelj za zmogljivosti sklepanja modela [6] [8]. Uporaba podatkov o hladnem zagonu pomaga pri vzpostavljanju strukturiranega pristopa k reševanju problemov.
3. Okrepilno učenje (RL): Po začetni natančno nastavitev Deepseek R1 uporablja čisto okrepitev učenje za izboljšanje svojih spretnosti sklepanja. Ta postopek vključuje samodejno oceno vzorčnih odgovorov, da bi model potisnili k želenemu vedenju, kot je zagotavljanje rešitev po korakih za matematične težave [7] [8]. RL je ključnega pomena za razvoj sposobnosti modela, da se razmisli, ne da bi se zanašali na označene podatke.
4. Vzorčenje zavrnitve in nadzorovano natančno nastavitev: v bližini konvergence procesa RL, Deepseek R1 uporablja zavrnitev vzorčenja za ustvarjanje sintetičnih podatkov. Ta sintetični podatki se nato združijo z nadzorovanimi podatki iz različnih domen, da se še bolj izboljša znanje in natančnost modela [8]. Ta korak zagotavlja, da se model nauči tako iz kakovostnih rezultatov kot tudi raznolikega domenskega specifičnega znanja.
5. Skupinska relativna optimizacija politike (GRPO): Deepseek je razvil GRPO, nov algoritem, ki je zasnovan tako, da bo učenje okrepitve učinkoviteje. GRPO se uporablja za optimizacijo procesa usposabljanja, kar omogoča, da se model dobro izvaja v več referenčnih vrednostih [7]. Medtem ko GRPO ni posebej podrobno opisan za ustvarjanje formule, prispeva k splošni učinkovitosti treningov Deepseek.
6. Večstopenjski postopek usposabljanja: Večstopenjski pristop usposabljanja, ki ga je sprejel Deepseek R1, vključuje ponovitev skozi različne faze natančnega nalaganja in učenje okrepitve. Vsaka stopnja temelji na prejšnji in zagotavlja, da model razvije močne zmogljivosti sklepanja, hkrati pa ohranja berljivost in skladnost [6] [8]. Ta strukturiran pristop je ključnega pomena za doseganje visoko zmogljivosti pri nalogah matematičnega sklepanja.
Če povzamemo, so zmogljivosti za ustvarjanje formule Deepseek podprte s kombinacijo naprednih tehnik NLP, okrepitvenih strategij za učenje in inovativnih algoritmov, kot je GRPO. Te metode omogočajo, da se Deepseek modeli odlično odrežejo pri matematičnem sklepanju in nalogah za reševanje problemov.
Navedbe:
[1] https://kalm.works/sl/contents/technology/what-is-deepseek-differences-from-chatgpt-and-ause-cases
[2] https://www.youtube.com/watch?v=PABQG33surg
[3] https://planetbanatt.net/articles/deepseek.html
[4] https://martinfowler.com/articles/deepseek-papers.html
[5] https://www.inferless.com/learn/the-ultimate-guide-to-epeepseek-models
[6] https://www.reddit.com/r/singularity/comments/1i9lkbh/deepseekr1_how_did_they_make_an_openailevel/
[7] https://www.technologyReview.com/2025/01/31/1110740/how-meepseek-Ripp-the-ai-playbook-and-why-everyones-hoing-to-follow-it/
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-aws-to-it-it