การแสดงของ Deepseek-R1 ในเกณฑ์มาตรฐาน AIME 2024 นั้นโดดเด่นเนื่องจากคะแนน 79.8%ก่อน OpenAI O1-1217 เล็กน้อยซึ่งประสบความสำเร็จ 79.2%[1] อย่างไรก็ตามมีการเปรียบเทียบโดยตรงที่ จำกัด ระหว่าง Deepseek-R1 และ GPT-4O-0513 โดยเฉพาะในมาตรฐาน AIME 2024
รุ่น GPT-4O เป็นที่รู้จักกันโดยทั่วไปสำหรับประสิทธิภาพที่แข็งแกร่งของพวกเขาในงานต่าง ๆ แต่ผลลัพธ์ที่เฉพาะเจาะจงสำหรับ GPT-4O-0513 ใน AIME 2024 ไม่ได้มีรายละเอียดในข้อมูลที่มีอยู่ โดยทั่วไปแล้วโมเดล GPT-4O นั้นแข็งแกร่งในการทำความเข้าใจภาษาและงานการสร้าง แต่ประสิทธิภาพของพวกเขาในการกำหนดมาตรฐานการใช้เหตุผลทางคณิตศาสตร์แบบพิเศษเช่น AIME อาจแตกต่างกันไปเมื่อเทียบกับโมเดลที่ได้รับการปรับปรุงโดยเฉพาะสำหรับงานดังกล่าวเช่น Deepseek-R1
ประสิทธิภาพที่แข็งแกร่งของ Deepseek-R1 ใน AIME 2024 สามารถนำมาประกอบกับสถาปัตยกรรมซึ่งรวมเอาการเรียนรู้การเสริมแรงขนาดใหญ่เพื่อเพิ่มขีดความสามารถในการใช้เหตุผล วิธีการนี้ช่วยให้มันเก่งในงานที่ต้องใช้เหตุผลทางคณิตศาสตร์หลายขั้นตอนขั้นสูง [1] [3] ในทางตรงกันข้ามโมเดล GPT-4O นั้นมีลักษณะทั่วไปมากขึ้นและอาจไม่มีความเชี่ยวชาญในระดับเดียวกันในงานการใช้เหตุผลทางคณิตศาสตร์
โดยรวมในขณะที่ Deepseek-R1 แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าใน AIME 2024 เมื่อเทียบกับ OpenAI O1-1217 การเปรียบเทียบโดยตรงกับ GPT-4O-0513 ไม่ได้ให้ไว้อย่างชัดเจนในข้อมูลที่มีอยู่ อย่างไรก็ตามการฝึกอบรมเฉพาะด้านและสถาปัตยกรรมของ Deepseek-R1 น่าจะช่วยให้การแสดงที่แข็งแกร่งในมาตรฐานการใช้เหตุผลทางคณิตศาสตร์
การอ้างอิง:
[1] https://www.datacamp.com/blog/deepseek-r1
[2] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet- ซึ่งเป็น best-for-coding/
[3] https://docsbot.ai/models/compare/gpt-4o-2024-05-13/deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://docsbot.ai/models/compare/deepseek-r1/gpt-4o
[6] https://llm-stats.com/models/compare/deepseek-r1-vs-gpt-4o-2024-08-06
[7] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[8] https://docsbot.ai/models/compare/gpt-4o/deepseek-r1