„Deepseek“, ypač „Deepseek-R1-Distill-QWEN-32B“ modelis, susidūrė su konkrečiais iššūkiais, kai susidūrė su AIME 1 klausimų variantais. Šie iššūkiai pirmiausia sukasi apie modelio gebėjimą apibendrinti ir pritaikyti loginius pagrindimus modifikuotiems problemos scenarijams.
1. Našumo nutraukimas: modelis pasižymėjo pateikiant tikslius atsakymus į originalius AIME 1 klausimus, pagrįstus bandymo duomenimis. Tačiau susidūręs su šių klausimų variantais, kur buvo pakeistos vertės, jo našumas žymiai sumažėjo. Tai rodo, kad nors „Deepseek-R1-Distill-QWEN-32B“ moka įsiminti ir pritaikyti žinomus sprendimus, jis kovoja su prisitaikymu prie naujų ar modifikuotų problemų nustatymų [1].
2. Loginiai samprotavimai Apribojimai: modelio nesugebėjimas veiksmingai pagrįsti probleminių parametrų pokyčius rodo loginių samprotavimo galimybių apribojimus. Skirtingai nuo žmonių sprendėjų, kurie dažnai gali apibendrinti sprendimus, pagrįstus pagrindinių principų supratimu, „Deepseek“ modeliai gali labiau priklausyti nuo modelio atpažinimo ir įsiminimo. Tai daro juos mažiau veiksmingus tvarkant romanus ar šiek tiek pakitusius probleminius scenarijus [1].
3. Įžvalgos apie pagrindimą stoka: Neturėdamas įžvalgos apie vertybių ar probleminių struktūrų pokyčių pagrindimą, tampa sudėtinga tiksliai įvertinti ir patobulinti modelio našumą. Tai pabrėžia skaidresnių ir paaiškinamų AI modelių, galinčių suteikti įžvalgos apie jų sprendimų priėmimo procesus, poreikį [1].
4. Apibendrinimo iššūkiai: „Deepseek“ modeliai, kaip ir daugelis AI sistemų, susiduria su iššūkiais apibendrinant savo žinias naujiems kontekstams. Tai ypač akivaizdu matematiniuose konkursuose, kai problemoms dažnai reikia ne tik įsiminimo, bet ir galimybės įgyvendinti principus naujais būdais. Šio aspekto tobulinimas apimtų modelio gebėjimo suprasti pagrindines matematines sąvokas, o ne tik atpažinti modelius [3].
Apibendrinant galima pasakyti, kad „Deepseek“ iššūkiai su AIME 1 variantais kyla dėl jos priklausomybės nuo įsiminimo ir modelio atpažinimo, o tai riboja jo sugebėjimą apibendrinti ir pritaikyti loginius samprotavimus modifikuotiems problemos scenarijams. Norint išspręsti šiuos iššūkius, reikės patobulinti modelio supratimą ir pritaikymą matematiniams principams.
Citatos:
[1] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[2] https://wescarroll.com/aime-math-competition-trips/
[3] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-ource-reasoning-20-ramachandran-xakme
[4] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[5] https://artofprobemsolving.com/wiki/index.php/2024_aime_i_problems
[6] https://hiddenlayer.com/innovation-hub/deepsht-exposing-the-security-risks-of-fi deepseek-r1/
[7] https://www.turtlesai.com/en/pages-2142/deepseek-challenges-openai-with-r1-reason-model
[8] https://web.evanchen.cc/mockaime.html