يوضح نموذج R1 من Deepseek أداءً قويًا في معهد امتحان الرياضيات الدعائي الأمريكية (AIME) ، وهي مسابقة رياضية مرموقة لطلاب المدارس الثانوية. فيما يلي مقارنة مفصلة لأداء Deepseek R1 مع نماذج منظمة العفو الدولية الأخرى على AIME:
1. Deepseek R1 مقابل Openai O1: أظهر Deepseek R1 نتائج تنافسية على AIME ، مع درجة 79.8 ٪ في AIME 2024 ، قبل Openai O1-1217 بنسبة 79.2 ٪ [9]. ومع ذلك ، حقق Openai O1 درجة أعلى من 96.7 ٪ في مقارنة أخرى ، مما يشير إلى تقلب في مقاييس الأداء أو إصدارات النماذج المستخدمة [8]. سجل Deepseek R1-Zero ، وهو نموذج مقدمة ، 71.0 ٪ في AIME 2024 ، وهو أقل بقليل من Openai O1-0912 ولكن فوق O1-Mini [1].
2. مقارنة مع النماذج الأخرى: في مقارنة أوسع ، كان أداء Deepseek R1 جيدًا ولكن لم يكن هداف أفضل. على سبيل المثال ، احتل Openai O3 Mini المركز الأول بدقة 86.5 ٪ على AIME ، يليه Deepseek R1 و O1 [2]. هذا يشير إلى أنه على الرغم من أن Deepseek R1 منافسة ، إلا أنه قد لا يتفوق دائمًا على أحدث النماذج مثل O3 Mini.
3. تقلب الأداء: يمكن أن يختلف أداء نماذج الذكاء الاصطناعى على AIME اعتمادًا كبيرًا على الإصدار المحدد من الاختبار. على سبيل المثال ، كانت النماذج أداءً بشكل أفضل على أسئلة AIME 2024 الأقدم مقارنةً بأحدث أسئلة AIME 2025 ، ربما بسبب إدراج الأسئلة السابقة في بيانات التدريب الخاصة بهم [2].
4. إمكانيات التفكير: يعزى الأداء القوي لـ Deepseek R1 على AIME إلى قدرات التفكير المتقدمة ، والتي تسمح لها بمعالجة المشكلات الرياضية المعقدة بفعالية. ومع ذلك ، يمكن أن ينخفض أدائه عندما يواجه متغيرات من الأسئلة التي تتطلب التفكير المنطقي الأعمق [7].
بشكل عام ، يوضح Deepseek R1 أداءً قويًا على AIME ، يتنافس بشكل وثيق مع نماذج أخرى أفضل مثل Openai O1 ، على الرغم من أنه قد لا يؤدي دائمًا إلى كل مقارنة. إن طبيعتها مفتوحة المصدر وكفاءة التكلفة تجعلها خيارًا جذابًا للمطورين الذين يتطلعون إلى الاستفادة من إمكانات التفكير المتقدم في الرياضيات.
الاستشهادات:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-t-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepeek-r1
[5]
[6] https://www.byteplus.com/en/topic/386612
[7]
[8]
[9] https://www.datacamp.com/blog/deepeek-r1