ประสิทธิภาพ DEEPSEEK-R1 บนเกณฑ์มาตรฐาน MATH-500 และ AIME 2024

ประสิทธิภาพของ DeepSeek-R1 ในเกณฑ์มาตรฐาน MATH-500 เปรียบเทียบกับประสิทธิภาพของมาตรฐาน AIME 2024

Deepseek-R1 แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในเกณฑ์มาตรฐานทางคณิตศาสตร์ที่หลากหลายโดยเฉพาะอย่างยิ่งในการทดสอบ MATH-500 และ AIME 2024 นี่คือการเปรียบเทียบรายละเอียดของประสิทธิภาพในการวัดประสิทธิภาพทั้งสองนี้:

Math-500 Benchmark

-ประสิทธิภาพ: Deepseek-R1 ได้รับคะแนนที่น่าประทับใจ@1 คะแนน 97.3% สำหรับเกณฑ์มาตรฐานคณิตศาสตร์ -500 คะแนนนี้บ่งชี้ว่าแบบจำลองมีประสิทธิภาพสูงในการแก้ปัญหาทางคณิตศาสตร์ระดับมัธยมที่หลากหลายที่ต้องใช้เหตุผลอย่างละเอียด [1] [4]
-เปรียบเทียบกับ OpenAI O1-1217: DEEPSEEK-R1 เหนือกว่า OpenAI O1-1217 เล็กน้อยซึ่งทำคะแนน 96.4% ตามเกณฑ์มาตรฐานเดียวกัน สิ่งนี้ชี้ให้เห็นว่า Deepseek-R1 มีขอบเล็กน้อยในการจัดการประเภทของปัญหาทางคณิตศาสตร์ที่นำเสนอใน MATH-500 [4] [6]

AIME 2024 Benchmark

- ประสิทธิภาพ: ตามมาตรฐาน AIME 2024, Deepseek-R1 ได้คะแนน 79.8% เกณฑ์มาตรฐานนี้ประเมินการใช้เหตุผลทางคณิตศาสตร์หลายขั้นตอนขั้นสูงและประสิทธิภาพของ Deepseek-R1 บ่งชี้ว่าสามารถจัดการปัญหาทางคณิตศาสตร์ที่ซับซ้อนได้ [1] [4]
-เปรียบเทียบกับ OpenAI O1-1217: DEEPSEEK-R1 นั้นมีประสิทธิภาพสูงกว่า OpenAI O1-1217 เล็กน้อยใน AIME 2024 ซึ่งทำคะแนนได้ 79.2% ความแตกต่างเล็กน้อยนี้แสดงให้เห็นว่าทั้งสองรุ่นมีการแข่งขันสูงในงานการใช้เหตุผลทางคณิตศาสตร์ขั้นสูง [4] [6]

ความแตกต่างที่สำคัญระหว่างมาตรฐาน

-ความซับซ้อนของปัญหา: AIME 2024 มุ่งเน้นไปที่ปัญหาทางคณิตศาสตร์ขั้นสูงและซับซ้อนมากขึ้นเมื่อเทียบกับ MATH-500 ซึ่งรวมถึงปัญหาระดับมัธยมปลายที่กว้างขึ้น
-ประสิทธิภาพของแบบจำลอง: Deepseek-R1 แสดงอัตราความสำเร็จที่สูงขึ้นใน MATH-500 กว่า AIME 2024 ซึ่งบ่งชี้ว่ามีประสิทธิภาพมากขึ้นในการแก้ปัญหาทางคณิตศาสตร์ที่หลากหลายมากกว่าเพียงแค่ขั้นสูง

โดยรวมแล้ว Deepseek-R1 แสดงให้เห็นถึงความสามารถในการใช้เหตุผลทางคณิตศาสตร์ที่แข็งแกร่งโดยมีขอบที่โดดเด่นในการแก้ปัญหาทางคณิตศาสตร์ที่หลากหลายตามที่เห็นในเกณฑ์มาตรฐาน MATH-500 และประสิทธิภาพการแข่งขันในงานการใช้เหตุผลทางคณิตศาสตร์ขั้นสูงที่ประเมินโดย AIME 2024

การอ้างอิง:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/r1-zero-r1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-on-certain-benchmarks/
[8] https://www.geekwire.com/2025/deepseks-new-model-hows-that-ai-expertise-might-matter-more-than-compute-in2025/