Comparație de performanță de referință Deepseek-R1: SWE Verificat vs CodeForces

Cum se compară performanța Deepseek-R1 pe referința SWE verificată cu performanțele sale pe referința CodeForces

Deepseek-R1 demonstrează o performanță puternică pe diferite repere, inclusiv valori de referință SWE verificate și CodeForces. Iată o comparație detaliată a performanței sale pe aceste două repere:

SWE Benchmark verificat

- Performanță: DeepSeek-R1 a obținut un scor de 49,2% pe referința de referință verificată SWE, care evaluează raționamentul în sarcinile de inginerie software. Acest scor este ușor înaintea celor 48,9% din Openai O1-1217, dar ușor în spatele Claude-3.5-Sonnet-1022 de 50,8% [2] [3].
- Focus în sarcină: Benchmark -ul verificat SWE se concentrează pe sarcini legate de verificarea software -ului, necesitând modelului să -și demonstreze capacitatea de a raționa cu privire la conceptele de inginerie software.

CodeForces Benchmark

-Performanță: Pe referința CodeForces, DeepSeek-R1 a obținut un clasament percentil de 96,3 și un rating ELO de 2029. Acest lucru îl plasează în procentul de top al participanților, deși este ușor în spatele lui Openai O1-1217, care a obținut un procent de 96,6 și o evaluare ELO de 2061 [2] [3].
- Focusul sarcinii: Benchmark -ul CodeForces evaluează capacitățile de codificare și raționament algoritmic al modelului, comparând performanțele sale cu participanții umani în provocări competitive de codificare.

În rezumat, în timp ce Deepseek-R1 funcționează în mod competitiv pe ambele repere, acesta arată o performanță relativă mai puternică pe referința CodeForces, unde se află foarte mare în rândul participanților. Cu toate acestea, pe referința verificată SWE, performanța sa este, de asemenea, puternică, dar puțin mai puțin competitivă în comparație cu alte modele precum Claude-3.5-Sonnet-1022. În general, Deepseek-R1 demonstrează capacități solide atât în sarcinile de codificare și de verificare a software-ului.

Citări:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-O1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
]
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
]
[7] https://huggingface.co/deepseek-AI/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1