DeepSeek-R1 проти GPT-4O на айме 2024 Бенчмарк: Порівняння продуктивності

Як продуктивність DeepSeek-R1 на еталоні AIME 2024 порівнюється з іншими моделями, такими як GPT-4-0513

Виступ DeepSeek-R1 на орієнтирі AIME 2024 помітна, оскільки він набрав 79,8%, трохи випереджаючи OpenAI O1-1217, який досягає 79,2%[1]. Однак існує обмежене пряме порівняння між DeepSeek-R1 та GPT-4-0513, зокрема на орієнтирі AIME 2024.

Моделі GPT-4O, як правило, відомі своєю надійною продуктивністю в різних завданнях, але конкретні результати для GPT-4-0513 на AIME 2024 не детально описані у наявній інформації. Моделі GPT-4O, як правило, сильні в завданнях з розуміння мови та генерації, але їх ефективність на спеціалізованих математичних міркувальних орієнтирах, як AIME, може змінюватися порівняно з моделями, спеціально оптимізованими для таких завдань, як DeepSeek-R1.

Сильні показники DeepSeek-R1 на AIME 2024 можна віднести до його архітектури, яка включає масштабне навчання підкріплення для розширення можливостей міркувань. Цей підхід дозволяє йому досягти успіху в завданнях, що потребують вдосконаленого багатоступеневого математичного міркування [1] [3]. На відміну від цього, моделі GPT-4O є більш узагальненими і можуть не мати однакового рівня спеціалізації у завданнях математичних міркувань.

В цілому, хоча DeepSeek-R1 демонструє вищі результати роботи в AIME 2024 порівняно з OpenAI O1-1217, прямі порівняння з GPT-4-0513 явно не надаються у наявних даних. Однак спеціалізована підготовка та архітектура DeepSeek-R1, ймовірно, сприяють його сильному показі в математичних орієнтирах.

Цитати:
[1] https://www.datacamp.com/blog/deepeek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepeek-r1
[4] https://artificialanalysis.ai/models/deepeek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o-2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1