Deepseeki esinemine AIME 2024 võrdlusalusel: teadmised ja väljakutsed

Kuidas kajastab Deepseeki jõudlus AIME 2024 võrdlusaluse üle selle üldist matemaatiliste mõttekäikude võimalusi

Deepseeki jõudlus AIME 2024 võrdlusalusel annab olulist teavet selle üldistest matemaatilistest mõttekäikudest. AIME on keeruline matemaatikavõistlus keskkooliõpilaste jaoks, kes on tuntud oma rangete ja keerukate probleemide poolest. Deepseeki mudelid on selles võrdlusaluses näidanud muljetavaldavaid tulemusi, näidates nende võimet lahendada täiustatud matemaatilisi mõisteid.

Key Performance esiletõstmised

- Täpsuse saavutused: Deepseeki mudelid on saavutanud AIME 2024. aastal märkimisväärse täpsuse. Näiteks saavutas Deepseek R1 mudel 52,5% täpsuse määra, edestades teisi mudeleid, näiteks OpenAi O1-eelvaade, mis ulatus 44,6% [5]. Lisaks saavutas Deepseeki 32B parameetrimudel 72,6% täpsust, ehkki see oli pisut madalam kui teisel mudelil O1-0912, mis saavutas 74,4% [1].

- Võrdlus inimtulemusega: AIME -s osalejate keskmine tulemus on ajalooliselt vahemikus 4 kuni 6 õiget vastust 15 -st küsimusest. Kuigi Deepseeki mudelid on näidanud tugevat jõudlust, seisavad nad silmitsi väljakutsetega, et lahendada edasijõudnute matemaatiliste probleemide järjekindlalt, sarnaselt inimeste osalejatega [7].

-Põhjendus ja probleemide lahendamine: Deepseeki mudelid on silma paista matemaatiliste mõttekäikude osas, kasutades selliseid tehnikaid nagu samm-sammult mõttekäik ja tööriistade kasutamine. See ilmneb nende tulemustes teistes matemaatilistes võrdlusalustes, kus nad on ületanud olemasolevad avatud lähtekoodiga mudelid [2]. Võimalus pakkuda läbipaistvaid mõttekäike, mis sarnanevad inimese moodi aruteludega, suurendab nende hariduslikku väärtust ja usaldusväärsust [5].

piirangud ja väljakutsed

- jõudluse varieeruvus: jõudluses on märgatav langus, kui Deepseeeki mudelid puutuvad kokku variantide küsimustega või need, mis ei kuulu otseselt koolitusandmesse. Näiteks kui nad on silma paista konkreetsete testiandmete osas, on nende võime küsimuste muudetud versioonidele üldistada [4].

- Võrdlusaluse küllastus: AIME võrdlusalus on AI -mudelite jaoks endiselt keeruline, kuna see pole veel küllastunud, mis tähendab, et mudelid saavad selle ülesande osas siiski märkimisväärselt paraneda [7]. See viitab sellele, et kuigi Deepseek on teinud edusamme, on matemaatiliste mõttekäikude edasiseks arenguks ruumi.

Tuleviku tagajärjed

Deepseeki jõudlus AIME 2024 -l rõhutab AI -mudelite potentsiaali silma paista matemaatiliste mõttekäikude osas, kui kombineerida domeeniteadmisi tõhusate treeningtehnikatega. See lähenemisviis võib viia spetsialiseeritumate mudeliteni, mis saavutavad tagasihoidlike arvutusressurssidega tugevaid tulemusi, nihutades keskendumist toorest arvutusjõust nutikate treeningstrateegiateni [1]. AI arenedes mängivad matemaatiliste mõttekäikude piiride tõukamisel üliolulist rolli nagu Deepseek.

Tsitaadid:
]
[2] https://github.com/deepseek-ai/deepseekmath
[3] https://www.byteplus.com/en/topic/384068
]
[5] https://smythos.com/ai-agents/agen-architectures/deepseek-r1/
[6] https://www.medrxiv.org/content/10.1101/2025.06.06.25321749v1.full-text
[7] https://www.vals.ai/benchmarks/aime-2025-03-11
[8] https://arxiv.org/html/2503.10573v1