„Deepseek R1“: Pažangios mašinų mokymosi algoritmai formulės generavimui ir matematiniams samprotavimams

Kokius konkrečius mašininio mokymosi algoritmus „DeepSeek“ naudoja formulės generavimui

„Deepseek“ naudoja įvairius pažangių mašinų mokymosi algoritmus formulės generavimui ir matematiniams samprotavimams, ypač tokiuose modeliuose kaip „Deepseek R1“. Čia pateikiama išsami specifinių naudojamų metodų apžvalga:

1. Apmokestintos grandinės (COT) raginimai: „Deepseek R1“ pasinaudoja ilgomis minties grandinėmis, kad sustiprintų matematinius samprotavimus. Tai apima raginimų struktūrizavimą taip, kad būtų nukreiptas modelis per žingsnis po žingsnio samprotavimo procesus, panašius į tai, kaip žmonės išsprendžia sudėtingas problemas [2]. Sukurdama sintetinius mokymo duomenis, pagrįstus šiais COT raginimais, „Deepseek R1“ gali pagerinti savo sugebėjimą efektyviau išspręsti matematines problemas nei didesni modeliai.

2. Šaltas pradžios derinimas: Iš pradžių „Deepseek R1“ yra šaltas, pradedant patobulinti, naudojant kompaktišką duomenų rinkinį, kuriame pateikiami žingsnis po žingsnio samprotavimai. Šis pradinis etapas nustato tvirtą pagrindą modelio samprotavimo galimybėms [6] [8]. Šaltojo starto duomenų naudojimas padeda nustatyti struktūrizuotą požiūrį į problemų sprendimą.

3. Stiprinimo mokymasis (RL): Po pirminio derinimo, „Deepseek R1“ naudoja gryną sustiprinimo mokymąsi, kad patobulintų jo samprotavimo įgūdžius. Šis procesas apima automatiškai įvertinti pavyzdžių atsakymus, kaip nukreipti modelį link norimo elgesio, pvz., Pateikiant nuoseklius matematinių problemų sprendimus [7] [8]. RL yra labai svarbus kuriant modelio gebėjimą samprotauti, nesitikint pažymėtų duomenų.

4. Atmetimo mėginių ėmimo ir prižiūrimo tobulinimas: Artėjant RL proceso konvergencijai, „DeepseeE“ R1 naudoja atmetimo mėginių ėmimą sintetiniams duomenims generuoti. Tada šie sintetiniai duomenys sujungiami su prižiūrimais įvairių sričių duomenimis, kad būtų galima dar labiau patikslinti modelio žinias ir tikslumą [8]. Šis žingsnis užtikrina, kad modelis mokosi tiek iš aukštos kokybės rezultatų, tiek iš įvairių sričių specifinių žinių.

5. Grupės santykinė politikos optimizavimas (GRPO): „Deepseek“ sukūrė „GRPO“ - naują algoritmą, skirtą stiprinti mokymąsi efektyvesnį. GRPO yra naudojamas mokymo procesui optimizuoti, leidžiant modeliui gerai atlikti kelis etalonus [7]. Nors GRPO nėra konkrečiai detalus formulės generavimui, jis prisideda prie bendro „Deepseek“ mokymo procesų efektyvumo.

6. Kelių pakopų mokymo procesas: „Deepseek R1“ pasirinktas kelių pakopų mokymo metodas apima iteravimą per skirtingus tobulinimo ir stiprinimo mokymosi etapus. Kiekvienas etapas remiasi ankstesniu, užtikrinant, kad modelis išsiugdytų tvirtas samprotavimo galimybes, išlaikant skaitomumą ir darną [6] [8]. Šis struktūrizuotas požiūris yra esminis dalykas norint pasiekti aukštą matematinių samprotavimo užduočių rezultatą.

Apibendrinant galima pasakyti, kad „Deepseek“ formulės generavimo galimybes palaiko pažangių NLP metodų, sustiprinimo mokymosi strategijų ir novatoriškų algoritmų, tokių kaip GRPO, derinys. Šie metodai suteikia galimybę „DeepSeee“ modeliams tobulėti atliekant matematinius samprotavimus ir problemų sprendimo užduotis.

Citatos:
[1] https://kalm.works/en/contents/technology/what-is-deepseek-differences-from-chatgpt-and-use-ceses
[2] https://www.youtube.com/watch?v=pabqg33surg
[3] https://planetbanatt.net/articles/deepseek.html
[4] https://martinfowler.com/articles/deepseek-papers.html
[5] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[6] https://www.reddit.com/r/singularity/comments/1i9lkbh/deepseekr1_how_did_they_make_an_openailevel/
[7] https://www.technologyReview.com/2025/01/31/1110740/how-se-deepseek-ripped--he- ai-playbook-and-why-everyones-oning-o-follow-it/t/
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-use-it-it