Το Deepseek-R1 επιδεικνύει ισχυρές επιδόσεις σε διάφορα σημεία αναφοράς, συμπεριλαμβανομένων τόσο των SWE SEVERED όσο και του CodeForces Benchmarks. Ακολουθεί μια λεπτομερής σύγκριση των επιδόσεών της σε αυτά τα δύο σημεία αναφοράς:
swe επαλήθευση του σημείου αναφοράς
Στο επαληθευμένο σημείο αναφοράς, το Deepseek-R1 επιτυγχάνει βαθμολογία 49,2%, η οποία είναι ελαφρώς μπροστά από το O1-1217 του OpenAI στο 48,9%[2] [3]. Αυτό το σημείο αναφοράς αξιολογεί τη συλλογιστική ενός μοντέλου σε εργασίες μηχανικής λογισμικού, εστιάζοντας σε εργασίες όπως επαλήθευση κώδικα και εντοπισμός σφαλμάτων. Ενώ το Deepseek-R1 εκτελεί καλά, το Claude-3.5-Sonnet-1022 το εξαντλεί ελαφρώς με βαθμολογία 50,8%[3].CodeForces Benchmink
Αντίθετα, το Deepseek-R1 υπερέχει στο σημείο αναφοράς του CodeForces, επιτυγχάνοντας ένα εκατοστημόριο 96,3 και βαθμολογία ELO 2029 [3] [4]. Αυτό το τοποθετεί μεταξύ των κορυφαίων ερμηνευτών στην ανταγωνιστική κωδικοποίηση, ακολουθώντας στενά το OpenAI O1-1217, το οποίο οδηγεί με εκατοστημόριο 96,6 και βαθμολογία 2061 [3]. Το Benchmark CodeForces αξιολογεί τις δυνατότητες κωδικοποίησης και αλγοριθμικού συλλογισμού ενός μοντέλου, συγκρίνοντας τις επιδόσεις του με τους ανθρώπινους συμμετέχοντες.σύγκριση
Ενώ η Deepseek-R1 εκτελεί ανταγωνιστικά και στα δύο σημεία αναφοράς, η απόδοσή του είναι πιο έντονη στο σημείο αναφοράς του CodeForces. Αυτό υποδηλώνει ότι το Deepseek-R1 είναι ιδιαίτερα έμπειρο στην επίλυση των αλγοριθμικών και κωδικοποιητικών προκλήσεων, οι οποίες είναι πιο δομημένες και απαιτούν ακριβή λογική συλλογιστική. Στο SWE επαληθευμένο σημείο αναφοράς, ενώ αποδίδει καλά, είναι ελαφρώς λιγότερο κυρίαρχο σε σύγκριση με τις επιδόσεις του σε CodeForces. Αυτό δείχνει ότι το DeepSeeek-R1 μπορεί να είναι πιο κατάλληλο για εργασίες που απαιτούν αλγοριθμική συλλογιστική και όχι εκείνες που επικεντρώνονται στην επαλήθευση του λογισμικού και στο σφάλμα.Συνολικά, το Deepseek-R1 καταδεικνύει την ευελιξία σε διάφορους τύπους εργασιών κωδικοποίησης και συλλογιστικής, αλλά τα δυνατά του είναι πιο εμφανή στην αλγοριθμική επίλυση προβλημάτων.
Αναφορές:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-hhich-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-reasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1