Výkon DeepSeek-R1 na benchmarku AIME 2024 je pozoruhodný, protože skóre 79,8%, mírně před OpenAI O1-1217, která dosahuje 79,2%[1]. K dispozici je však omezené přímé srovnání mezi DeepSeek-R1 a GPT-4-0513 konkrétně na benchmarku AIME 2024.
Modely GPT-4O jsou obecně známé svým robustním výkonem v různých úkolech, ale specifické výsledky pro GPT-4-0513 na AIME 2024 nejsou podrobně uvedeny v dostupných informacích. Modely GPT-4O jsou obvykle silné v oblasti jazykového porozumění a generování úkolů, ale jejich výkon ve specializovaných měřítcích matematického uvažování, jako je Aime, se může lišit ve srovnání s modely specificky optimalizovanými pro tyto úkoly, jako je DeepSeek-R1.
Silný výkon DeepSeek-R1 na AIME 2024 lze připsat jeho architektuře, která zahrnuje rozsáhlé učení zesílení, aby se zvýšilo schopnosti uvažování. Tento přístup mu umožňuje vyniknout v úkolech vyžadujících pokročilé vícestupňové matematické uvažování [1] [3]. Naproti tomu modely GPT-4O jsou zobecněnější a nemusí mít stejnou úroveň specializace v úkolech matematického uvažování.
Celkově, zatímco DeepSeek-R1 ukazuje vynikající výkon na AIME 2024 ve srovnání s OpenAI O1-1217, přímé srovnání s GPT-4-0513 není v dostupných datech výslovně poskytováno. Specializovaný výcvik a architektura Deepseek-R1 však pravděpodobně přispívají k jeho silnému projevu v matematických referenčních hodnotách.
Citace:
[1] https://www.datacamp.com/blog/deepseek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-g-o1-VS-Claude-3-5-sonnet-Which-Best-for-coding/
[3] https://docsbot.ai/models/compare/gpt-4-2024-05-13/deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4-2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1