DeepSeek-R1 sniegums AIME 2024 etalonā ir ievērojams, jo tas ir 79,8%, nedaudz apsteidzot Openai O1-1217, kas sasniedz 79,2%[1]. Tomēr ir ierobežots tiešais salīdzinājums starp DeepSEEK-R1 un GPT-4O-0513, kas īpaši attiecas uz AIME 2024 etalonu.
GPT-4O modeļi parasti ir pazīstami ar savu spēcīgo veiktspēju dažādos uzdevumos, taču pieejamajā informācijā nav sīki aprakstīti īpašie GPT-4O-0513 rezultāti AIME 2024. GPT-4O modeļi parasti ir spēcīgi valodu izpratnes un ģenerēšanas uzdevumos, taču to sniegums specializētos matemātiskos spriešanas etalonos, piemēram, AIME, varētu atšķirties, salīdzinot ar modeļiem, kas īpaši optimizēti šādiem uzdevumiem, piemēram, DeepSeek-R1.
DeepSeek-R1 spēcīgo sniegumu AIME 2024 var attiecināt uz tā arhitektūru, kurā ietilpst liela mēroga pastiprināšanas mācīšanās, lai uzlabotu spriešanas iespējas. Šī pieeja ļauj tai izcelties uzdevumos, kuriem nepieciešama uzlabota daudzpakāpju matemātiskā spriešana [1] [3]. Turpretī GPT-4O modeļi ir vispārinātāki, un tiem, iespējams, nav vienāda specializācijas līmeņa matemātiskās spriešanas uzdevumos.
Kopumā, lai gan DeepSeek-R1 parāda izcilu sniegumu AIME 2024, salīdzinot ar Openai O1-1217, tiešie salīdzinājumi ar GPT-4O-0513 nav skaidri sniegti pieejamajos datos. Tomēr DeepSeek-R1 specializētā apmācība un arhitektūra, iespējams, veicina tās spēcīgo parādīšanu matemātisko spriešanas etalonos.
Atsauces:
[1] https://www.datacamp.com/blog/deepseek-r1
.
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o-2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1