การเปรียบเทียบประสิทธิภาพการเปรียบเทียบประสิทธิภาพของ DEEPSEEK-R1: SWE Verified vs CodeForces

ประสิทธิภาพของ DeepSeek-R1 ในเกณฑ์มาตรฐานที่ตรวจสอบแล้ว SWE เปรียบเทียบกับประสิทธิภาพของมันบนมาตรฐาน CodeForces ได้อย่างไร

Deepseek-R1 แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในการวัดประสิทธิภาพที่หลากหลายรวมถึงมาตรฐาน SWE ที่ผ่านการตรวจสอบแล้ว นี่คือการเปรียบเทียบรายละเอียดของประสิทธิภาพในการวัดประสิทธิภาพทั้งสองนี้:

SWE ตรวจสอบเกณฑ์มาตรฐาน

- ประสิทธิภาพ: Deepseek-R1 ได้คะแนน 49.2% จากเกณฑ์มาตรฐานที่ได้รับการตรวจสอบแล้ว SWE ซึ่งประเมินการใช้เหตุผลในงานวิศวกรรมซอฟต์แวร์ คะแนนนี้อยู่ข้างหน้าเล็กน้อยของ Openai O1-1217 ของ 48.9% แต่อยู่เบื้องหลัง Claude-3.5-Sonnet-1022 เล็กน้อยของ 50.8% [2] [3]
- การมุ่งเน้นงาน: เกณฑ์มาตรฐานที่ผ่านการตรวจสอบแล้ว SWE มุ่งเน้นไปที่งานที่เกี่ยวข้องกับการตรวจสอบซอฟต์แวร์ซึ่งต้องการรูปแบบเพื่อแสดงให้เห็นถึงความสามารถในการให้เหตุผลเกี่ยวกับแนวคิดทางวิศวกรรมซอฟต์แวร์

benchmark codeforces

-ประสิทธิภาพ: ตามมาตรฐาน CodeForces, Deepseek-R1 ได้รับการจัดอันดับเปอร์เซ็นไทล์ที่ 96.3 และคะแนน ELO ของปี 2029 สิ่งนี้อยู่ในเปอร์เซ็นไทล์สูงสุดของผู้เข้าร่วมแม้ว่ามันจะอยู่เบื้องหลัง OpenAI O1-1217 เล็กน้อย
- การมุ่งเน้นงาน: เกณฑ์มาตรฐาน CodeForces ประเมินความสามารถในการเขียนโค้ดและอัลกอริทึมของแบบจำลองโดยการเปรียบเทียบประสิทธิภาพกับผู้เข้าร่วมของมนุษย์ในความท้าทายในการเข้ารหัสการแข่งขัน

โดยสรุปในขณะที่ Deepseek-R1 ดำเนินการแข่งขันกับมาตรฐานทั้งสองมันแสดงให้เห็นถึงประสิทธิภาพที่สัมพันธ์กันที่แข็งแกร่งบนเกณฑ์มาตรฐาน CodeForces ซึ่งอยู่ในอันดับที่สูงมากในหมู่ผู้เข้าร่วม อย่างไรก็ตามในเกณฑ์มาตรฐาน SWE ที่ผ่านการตรวจสอบแล้วประสิทธิภาพของมันก็แข็งแกร่ง แต่มีการแข่งขันน้อยกว่าเล็กน้อยเมื่อเทียบกับรุ่นอื่น ๆ เช่น Claude-3.5-Sonnet-1022 โดยรวมแล้ว Deepseek-R1 แสดงให้เห็นถึงความสามารถที่แข็งแกร่งทั้งในการเขียนโค้ดและงานตรวจสอบซอฟต์แวร์

การอ้างอิง:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-wich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-on-certain-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-Than-O3- เมื่อเปรียบเทียบกับ costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1