ประสิทธิภาพของโมเดล Deepseek R1 บนมาตรฐาน AIME - เปรียบเทียบกับ OpenAI O1 และรุ่น AI อื่น ๆ

โมเดล R1 ของ Deepseek แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในมาตรฐานการสอบคณิตศาสตร์ของ American Invitational Mathematics (AIME) ซึ่งเป็นการแข่งขันคณิตศาสตร์ที่มีชื่อเสียงสำหรับนักเรียนมัธยมปลาย นี่คือการเปรียบเทียบรายละเอียดการแสดงของ Deepseek R1 กับรุ่น AI อื่น ๆ ใน AIME:

1. Deepseek R1 เทียบกับ Openai O1: Deepseek R1 ได้แสดงผลการแข่งขันใน AIME โดยมีคะแนน 79.8% ใน AIME 2024 ก่อนหน้า Openai O1-1217 เล็กน้อยที่ 79.2% [9] อย่างไรก็ตาม OpenAI O1 ได้คะแนนสูงกว่า 96.7% ในการเปรียบเทียบอื่นซึ่งบ่งบอกถึงความแปรปรวนในการวัดประสิทธิภาพหรือรุ่นของรุ่นที่ใช้ [8] Deepseek R1-Zero รุ่นสารตั้งต้นได้คะแนน 71.0% สำหรับ AIME 2024 ซึ่งต่ำกว่า OpenAI O1-0912 เล็กน้อย แต่สูงกว่า O1-MINI [1]

2. เปรียบเทียบกับรุ่นอื่น ๆ : ในการเปรียบเทียบที่กว้างขึ้น Deepseek R1 ทำงานได้ดี แต่ไม่ใช่ผู้ทำประตูสูงสุด ตัวอย่างเช่น Openai O3 Mini ใช้จุดสูงสุดด้วยความแม่นยำ 86.5% ใน AIME ตามด้วย Deepseek R1 และ O1 [2] สิ่งนี้ชี้ให้เห็นว่าในขณะที่ Deepseek R1 มีการแข่งขัน แต่ก็อาจไม่ดีกว่ารุ่นล่าสุดเช่น O3 Mini

3. ความแปรปรวนของประสิทธิภาพ: ประสิทธิภาพของโมเดล AI ใน AIME อาจแตกต่างกันอย่างมีนัยสำคัญขึ้นอยู่กับการทดสอบเวอร์ชันเฉพาะ ตัวอย่างเช่นโมเดลโดยทั่วไปทำงานได้ดีขึ้นสำหรับคำถาม AIME รุ่นเก่า 2024 เมื่อเทียบกับคำถาม AIME ใหม่ 2025 ซึ่งอาจเกิดจากการรวมคำถามก่อนหน้านี้ไว้ในข้อมูลการฝึกอบรมของพวกเขา [2]

4. ความสามารถในการใช้เหตุผล: ประสิทธิภาพที่แข็งแกร่งของ Deepseek R1 ใน AIME นั้นเกิดจากความสามารถในการใช้เหตุผลขั้นสูงซึ่งทำให้สามารถจัดการกับปัญหาทางคณิตศาสตร์ที่ซับซ้อนได้อย่างมีประสิทธิภาพ อย่างไรก็ตามประสิทธิภาพของมันสามารถลดลงเมื่อต้องเผชิญกับความหลากหลายของคำถามที่ต้องใช้เหตุผลเชิงตรรกะที่ลึกซึ้งยิ่งขึ้น [7]

โดยรวมแล้ว Deepseek R1 แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งใน AIME การแข่งขันอย่างใกล้ชิดกับรุ่นชั้นนำอื่น ๆ เช่น OpenAI O1 แม้ว่ามันอาจจะไม่ได้นำไปสู่การเปรียบเทียบทุกครั้ง ธรรมชาติของแหล่งโอเพ่นซอร์สและประสิทธิภาพต้นทุนทำให้เป็นตัวเลือกที่น่าสนใจสำหรับนักพัฒนาที่ต้องการใช้ประโยชน์จากความสามารถในการใช้เหตุผลขั้นสูงในวิชาคณิตศาสตร์

การอ้างอิง:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-on-certain-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-hich-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1

ประสิทธิภาพของ Deepseek ใน AIME 1 เปรียบเทียบกับรุ่น AI อื่น ๆ ได้อย่างไร