„Deepseek“ pasirodymas „Aime 2024“ etalone: įžvalgos ir iššūkiai

Kaip „Deepseee“ pasirodymas „Aime 2024“ etalone atspindi jo bendras matematinių samprotavimo galimybes

„Deepseek“ pasirodymas „Aime 2024“ etalone suteikia reikšmingų įžvalgų apie bendras matematinio samprotavimo galimybes. AIME yra sudėtingas matematikos konkursas vidurinių mokyklų studentams, žinomi dėl griežtų ir sudėtingų problemų. „Deepseek“ modeliai parodė įspūdingus šio etalono rezultatus, parodydami jų sugebėjimą spręsti pažangias matematines koncepcijas.

Pagrindiniai našumo svarbiausi dalykai

- Tikslumo pasiekimai: „Deepseek“ modeliai pasiekė pastebimą AIME 2024 tikslumą. Pavyzdžiui, „Deepseeek R1“ modelis pasiekė 52,5% tikslumo greitį, pralenkdamas kitus modelius, tokius kaip „Openai“ O1-PreView, kuris įvertino 44,6% [5]. Be to, 32B parametrų modelis iš „Deepseek“ pasiekė 72,6% tikslumą, nors tai buvo šiek tiek mažesnis nei kitas modelis, O1-0912, kuris surinko 74,4% [1].

- Palyginimas su žmogaus rezultatais: Vidutinis AIME dalyvių balas istoriškai yra nuo 4 iki 6 teisingų atsakymų iš 15 klausimų. Nors „Deepseek“ modeliai parodė stiprų rezultatą, jie vis tiek susiduria su iššūkiais nuolat sprendžiant pažangias matematines problemas, panašias į žmonių dalyvius [7].

-samprotavimai ir problemų sprendimas: „Deepseeek“ modeliai tobulėja matematiniais samprotavimais, naudojant tokius metodus kaip žingsnis po žingsnio samprotavimai ir įrankių naudojimas. Tai akivaizdu jų našume kituose matematiniuose etalonuose, kur jie pranoko esamus atvirojo kodo modelius [2]. Gebėjimas pateikti skaidrius samprotavimo procesus, panašius į žmogaus panašius svarstymus, padidina jų išsilavinimo vertę ir patikimumą [5].

apribojimai ir iššūkiai

- Našumo kintamumas: pastebimas našumo sumažėjimas, kai „Deepseee“ modeliai susiduria su varianto klausimais arba tie, kurie nėra tiesiogiai įtraukiami į jų mokymo duomenis. Pvz., Nors jie tobulėja pagal konkrečius bandymo duomenis, jų gebėjimas apibendrinti pakitusias klausimų versijas yra ribotas [4].

- Lyginamasis prisotinimas: AIIME etalonas išlieka sudėtingas AI modeliams, nes jis dar nėra prisotintas, tai reiškia, kad modeliai vis tiek gali žymiai pagerinti šią užduotį [7]. Tai rodo, kad nors „Deepseek“ padarė žingsnį, yra galimybė toliau tobulinti matematinius pagrindus.

Ateities pasekmės

„Deepseek“ pasirodymas „Aime 2024“ pabrėžia AI modelių galimybes tobulėti matematiniuose samprotavimuose derinant domeno patirtį su efektyviais mokymo metodais. Šis požiūris gali sukelti labiau specializuotus modelius, kurie pasiekia stiprius rezultatus su kukliais skaičiavimo ištekliais, o tai nukreipia dėmesį nuo neapdorotos skaičiavimo galios prie intelektualių mokymo strategijų [1]. AI tobulėjant, tokie modeliai kaip „Deepseek“ vaidins lemiamą vaidmenį perkeliant matematinių samprotavimo galimybių ribas.

Citatos:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-tat-ai-expertise-matter-matter-more than-compute-in-2025/
[2] https://github.com/deepseek-ai/deepseek-math
[3] https://www.byteplus.com/en/topic/384068
[4] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[5] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.02.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1