Deepseek-R1 vs GPT-4O sur AIME 2024 Benchmark: Comparaison des performances

Comment les performances de Deepseek-R1 sur la référence AIME 2024 se comparent-elles à d'autres modèles comme GPT-4O-0513

Les performances de Deepseek-R1 sur la référence AIME 2024 sont notables, car elle marque 79,8%, légèrement en avance sur Openai O1-1217, ce qui atteint 79,2% [1]. Cependant, il existe une comparaison directe limitée disponible entre Deepseek-R1 et GPT-4O-0513 spécifiquement sur la référence AIME 2024.

Les modèles GPT-4O sont généralement connus pour leurs performances robustes sur diverses tâches, mais les résultats spécifiques pour GPT-4O-0513 sur AIME 2024 ne sont pas détaillés dans les informations disponibles. Les modèles GPT-4O sont généralement forts dans la compréhension des langues et les tâches de génération, mais leurs performances sur des repères de raisonnement mathématique spécialisés comme l'AIME peuvent varier par rapport aux modèles spécifiquement optimisés pour de telles tâches, comme Deepseek-R1.

La forte performance de Deepseek-R1 sur AIME 2024 peut être attribuée à son architecture, qui intègre l'apprentissage de renforcement à grande échelle pour améliorer les capacités de raisonnement. Cette approche lui permet d'exceller dans les tâches nécessitant un raisonnement mathématique en plusieurs étapes avancé [1] [3]. En revanche, les modèles GPT-4O sont plus généralisés et pourraient ne pas avoir le même niveau de spécialisation dans les tâches de raisonnement mathématique.

Dans l'ensemble, bien que Deepseek-R1 montre des performances supérieures sur l'AIME 2024 par rapport à OpenAI O1-1217, les comparaisons directes avec GPT-4O-0513 ne sont pas explicitement fournies dans les données disponibles. Cependant, la formation et l'architecture spécialisées de Deepseek-R1 contribuent probablement à sa forte démonstration dans les repères de raisonnement mathématique.

Citations:
[1] https://www.datacamp.com/blog/deepseek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-forcoding/
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-oo1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1