„Deepseek-R1“ prieš „GPT-4o“ „Aime 2024“ etalonas: našumo palyginimas

Kaip „Deepseeek-R1“ pasirodymas „Aime 2024“ etalone, palyginti su kitais modeliais, tokiais kaip GPT-4O-0513

Pastebimas „Deepseek-R1“ rezultatas „Aime 2024“ etalone, nes jis įvertina 79,8%, šiek tiek aplenkdamas „Openai O1-1217“, kuris pasiekia 79,2%[1]. Tačiau yra ribotas tiesioginis palyginimas tarp „Deepseek-R1“ ir „GPT-4o-0513“, būtent „Aime 2024“ etalone.

GPT-4o modeliai paprastai yra žinomi dėl jų tvirto atlikimo atliekant įvairias užduotis, tačiau konkretūs GPT-4O-0513 rezultatai AIME 2024 nėra išsamūs turima informacija. GPT-4o modeliai paprastai būna stiprūs atliekant kalbos supratimą ir generavimo užduotis, tačiau jų veikimas specializuotuose matematiniuose samprotavimų etalose, kaip AIME, gali skirtis, palyginti su modeliais, specialiai optimizuotais tokioms užduotims, pavyzdžiui, „Deepseek-R1“.

Stiprus „Deepseek-R1“ rezultatus „Aime 2024“ gali būti priskiriamas jo architektūrai, kuri apima didelio masto stiprinimo mokymąsi, siekiant sustiprinti samprotavimo galimybes. Šis požiūris leidžia jam puikiai atlikti užduotis, kurioms reikia pažangių daugiapakopių matematinių samprotavimų [1] [3]. Priešingai, GPT-4o modeliai yra labiau apibendrinti ir gali neturėti tokio paties matematinių pagrindimo užduočių specializacijos lygio.

Apskritai, nors „Deepseek-R1“ rodo pranašesnius AIME 2024 rezultatus, palyginti su „Openai O1-1217“, tiesioginis palyginimas su GPT-4O-0513 nėra aiškiai pateikiami turimuose duomenyse. Tačiau specializuotas „Deepseeek-R1“ mokymas ir architektūra greičiausiai prisideda prie jo stipraus matematinių samprotavimų etalonų.

Citatos:
[1] https://www.datacamp.com/blog/deepseek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-caudaude-3-5-sonnet- which-iis-best-for-coding/
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepseek-r1
[4] https://artifialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o-2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1