Deepseek R1 suurendab selle mõttekäikude võimalusi uudse tugevdusõppe (RL) lähenemisviisi abil, mis erineb traditsioonilistest juhendatud peenhäälestamise (SFT) meetoditest. See uuenduslik strateegia võimaldab mudelil arutluskäiku iseseisvalt ja tõhusalt arendada.
Tugevdava õppe raamistik
Deepseek R1 kasutab grupi suhtelist poliitika optimeerimist (GRPO)-reeglipõhist RL-i raamistikku, mis võimaldab mudelil õppida katse-eksituse põhjal, ilma et peaksite lootma eelmärgistatud andmekogudele. See lähenemisviis võimaldab mudelil uurida tohutut lahendusruumi, avastades ainulaadseid mõttekäike ja strateegiaid, mida ei pruugi järelevalve all olevates koolitusandmetes esineda [1] [2] [4]. RL-protsessi ajal arutluskäikude stimuleerides suudab Deepseek R1 genereerida sidusaid mõtteahelaid ja tegeleda eneseversiooni ja peegeldusega, mis on keerukate probleemide lahendamise jaoks kriitilise tähtsusega [4].
Mitmeastmeline treeningprotsess
Deepseek R1 koolitus jaguneb mitmeks etapiks:
1. Külm algusetapp: mudel algab väikese koguse kvaliteetse juhendatud andmetega, mis on kogutud eelkäijalt Deepseek R1-Zero. See etapp aitab leevendada selliseid probleeme nagu halb loetavus ja keele segamine, mida täheldati varasemates mudelites [1] [2].
2. Põhjendustele orienteeritud RL: Pärast külma algust läbib mudel ulatuslikud mõttekäigud RL-i koolitused. See etapp keskendub konkreetsete domeenide võimaluste parandamisele, nagu kodeerimine, matemaatika ja loogika, kus selged lahendused saab määratleda tasude reeglite abil [3] [4].
3. Uute andmetega peenhäälestamine: Pärast RL-i esialgset koolitust genereeritakse RL kontrollpunkti põhjal tagasilükkamisproovide abil uued juhendatud andmed. Seejärel kasutatakse neid andmeid edasiseks peenhäälestamiseks, võimaldades mudelil täpsustada oma mõttekäike erinevates ülesannetes [1] [2].
jõudlustulemused
Selle range treeningprotsessi tulemus on mudel, mis saavutab jõudlustaseme, mis on võrreldav juhtivate mudelitega nagu OpenAi O1-1217 mõttekäikude osas. Näiteks näitas Deepseek R1 võrdlusaluste olulist paranemist: läbimise määrad tõusid AIME 2024 ülesannetes 15,6% -lt 71% -ni, tutvustades selle täiustatud mõttekäikude võimalusi [1] [2].
Kokkuvõtlikult ei toeta Deepseek R1 tugevdusõppe lähenemisviis mitte ainult sõltumatut arutluskäiku, vaid suurendab ka probleemide lahendamise tõhusust, minimeerides sõltuvust ulatuslikele järelevalve all olevatele andmekogumitele. See positsioneerib selle võimsa tööriistana suurte keelemudelite maastikul.
Tsitaadid:[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcclsibu
]
[5] https://github.com/deepseek-ai/deepseek-r1/actions
]
[7] https://arxiv.org/abs/2501.12948
]