Το Deepseek και το Copilot έχουν δοκιμαστεί έναντι διαφόρων σημείων αναφοράς, παρουσιάζοντας τις δυνατότητές τους σε διαφορετικές περιοχές.
σημεία αναφοράς Deepseeek
Το Deepseek, ιδιαίτερα το μοντέλο R1, έχει αξιολογηθεί σε διάφορα σημεία αναφοράς:
- Μαθηματικά κριτήρια αναφοράς: Το Deepseek R1 εκτελείται έντονα στα μαθηματικά, σημειώνοντας 79,8% στο σημείο αναφοράς του AIME 2024, ελαφρώς μπροστά από το O1-1217 του OpenAI στο 79,2%. Στο αναφερόμενο σημείο Math-500, το Deepseek R1 πέτυχε ένα εντυπωσιακό 97,3%, ξεπερνώντας το O1-1217 της OpenAI στο 96,4%[3] [5].
- Κωδικοποιώντας σημεία αναφοράς: Σε εργασίες κωδικοποίησης, το Deepseek R1 πέτυχε ένα ανταγωνιστικό 96,3% στο σημείο αναφοράς του CodeForces, ακολουθώντας στενά το O1-1217 της OpenAI στο 96,6%. Στο επαληθευμένο δείκτη αναφοράς, Deepseek R1 σημείωσε 49,2%, ελαφρώς μπροστά από το O1-1217 του OpenAI στο 48,9%[3] [5].
- Σημεία γενικής γνώσης: Το DeepSeek R1 σημείωσε 71,5% στο Benchmark GPQA Diamond, το O1-1217 της OpenAI στο 75,7%. Στο σημείο αναφοράς MMLU, το Deepseek R1 πέτυχε 90,8%, ελαφρώς πίσω από το O1-1217 του OpenAI στο 91,8%[3] [5].
- Ασφάλεια και ασφάλεια: Το Deepseek R1 δοκιμάστηκε για ευπάθειες ασφαλείας χρησιμοποιώντας το σημείο αναφοράς Harmbench, το οποίο περιλαμβάνει κατηγορίες όπως το έγκλημα στον κυβερνοχώρο και η παραπληροφόρηση. Το μοντέλο έδειξε ποσοστό επιτυχίας 100%, υποδεικνύοντας σημαντικές ανησυχίες για την ασφάλεια σε σύγκριση με άλλα μοντέλα όπως το O1 [1] του OpenAI.
Copilot Benchmarks
Ο Copilot, ειδικά στο πλαίσιο του Excel, έχει δοκιμαστεί ενάντια σε βαθιά αναζήτηση σε σύγκριση με επικεφαλής:
- Excel Formula Δημιουργία: Ο Copilot αγωνίστηκε με τη δημιουργία τύπου λόγω της απαίτησής του για αυτόματη αποθήκευση, ενώ η Deep Seek παρέχει πιο ευέλικτες λύσεις, επιλύοντας ζητήματα σε λιγότερες προσπάθειες [2].
-Excel Formula Επεξήγηση: Ο Copilot προσέφερε εξηγήσεις βασισμένες στη σύνταξη, ενώ η βαθιά αναζήτηση παρείχε σαφέστερες, πιο πρακτικές κατανομές σύνθετων τύπων, καθιστώντας το πιο φιλικό προς το χρήστη [2].
Ενώ ο Copilot δεν έχει συγκριθεί εκτενώς με τον ίδιο τρόπο με το Deepseek σε διάφορα καθήκοντα συλλογιστικής και κωδικοποίησης, αναγνωρίζεται για τις δυνατότητές του στην κωδικοποίηση βοήθειας, ιδίως σε περιβάλλοντα της Microsoft [4].
Αναφορές:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-t-ranks-gainst-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-the-test-how-its-performance-compares-gainst-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/