„Deepseek“ pasiekia didelį tikslumą „Aime 2024“ etalone su novatoriškais metodais

Kokius konkrečius metodus „Deepseee“ panaudojo, kad pasiektų didelį tikslumą „Aime 2024“ etalone

„Deepseek“ pasiekė didelį tikslumą „Aime 2024“ etalone, naudojant keletą novatoriškų metodų:

1. Sutelktos mokymo duomenų generavimas: „Deepseek“ generuoti mokymo duomenys, kuriuos būtų galima automatiškai patikrinti, ypač tokiose srityse kaip matematika, kur teisingumas yra nedviprasmiškas. Šis požiūris leido jiems sutelkti dėmesį į aukštos kokybės, svarbių duomenų kūrimą, kurie tiesiogiai prisideda prie modelio našumo gerinimo [1].

2. Efektyvios atlygio funkcijos: Jie sukūrė labai efektyvias atlygio funkcijas, skirtas nustatyti, kurie nauji mokymo pavyzdžiai iš tikrųjų pagerintų modelį. Ši strategija padėjo išvengti skaičiavimo išteklių švaistymo nereikalingiems duomenims, užtikrinant, kad modelis išmoktų iš vertingiausių pavyzdžių [1].

3. Distiliavimo ir modelio optimizavimas: „Deepseek“ naudojami modelio distiliavimo metodai, kad būtų sukurtos mažesni modeliai, kurie vis dar pasiekė įspūdingų rezultatų. Pavyzdžiui, jų distiliuotas 7B modelis pranoko didesnių atvirojo kodo modelių, tokių kaip QWQ-32B-prevence, tikslumą, nepaisant to, kad jie turi mažiau parametrų. Tai parodo, kaip sutelktas mokymas gali lemti stiprų rezultatą konkrečiose srityse, turinčiose kuklius skaičiavimo išteklius [1].

4. Bandymo laiko skaičiavimo ir samprotavimo grandinės: „Deepseeek“ modeliai, tokie kaip „Deepseeek R1“, naudoja techniką, vadinamą „bandymo laiko skaičiavimas“, kuris leidžia modeliui skirti daugiau laiko ir skaičiavimo galios kiekvienai problemai. Šis požiūris imituoja žmogaus panašų svarstymą, dėl kurio gaunamas tikslesnis ir apgalvotas atsakymas. Kadangi modelis generuoja ilgesnes samprotavimo grandines, jis gali išspręsti vis sudėtingesnes problemas labiau tikslumu [6].

5. Skaidrumo ir daugialypių agentų architektūra: „Deepseeek“ modeliai, ypač „Deepseeek-R1“, naudoja daugialypę bendradarbiavimo architektūrą, integruojančią įvairius samprotavimo būdus. Ši sinergija padeda sušvelninti konkrečias užduoties paklaidas ir padidina nuoseklumą, nes sumažina kintamumą. Struktūrizuotas metodas leidžia modeliui dinamiškai nustatyti prioritetus didelio pasitikėjimo savimi sprendimus, tuo pačiu pakartotinai tobulinant mažiau tam tikrų išėjimų [3].

Šie metodai kartu prisideda prie įspūdingo „Deepseek“ rezultatų „Aime 2024“ etalone, parodant, kaip strateginiai mokymo metodai ir modelio dizainas gali aplenkti neapdorotą skaičiavimo galią siekiant aukšto tikslumo.

Citatos:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-tat-ai-expertise-matter-matter-more than-compute-in-2025/
[2] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[3] https://arxiv.org/html/2503.10573v1
[4] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[5] https://aws.amazon.com/bedrock/deepseek
[6] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[7] https://www.amitysolutions.com/blog/deepseek-r1-ai-giant-from-china
[8] https://cloudsecurityalliance.org/blog/2025/01/29/deepseek-rewriting-the-rules-of-ai-development
[9] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models