Deepseek ve Copilot, farklı alanlarda yeteneklerini sergileyen çeşitli kriterlere karşı test edildi.
Deepseek Kıyasları
Deepseek, özellikle R1 modeli, çeşitli kriterlerde değerlendirilmiştir:
- Matematik Kıyasları: Deepseek R1, AIME 2024 ölçütünde% 79,8 puan, Openai'nin O1-1217'sinin biraz önünde% 79.2 ile güçlü bir performans sergiledi. Math-500 ölçütünde, Deepseek R1%97.3'ü etkileyici bir%97.3 elde etti ve Openai'nin O1-1217'sini%96.4 olarak aştı [3] [5].
- Kodlama ölçütleri: Kodlama görevlerinde, Deepseek R1, Openai'nin O1-1217'sini% 96.6'da yakından takip ederek CodeForces karşılaştırmasında rekabetçi bir% 96,3 elde etti. SWE-Bench doğrulanmış kıyaslamada, Deepseek R1%49.2 puan aldı, Openai'nin O1-1217'sinin biraz önünde%48.9 [3] [5].
- Genel bilgi ölçütleri: Deepseek R1, GPQA elmas ölçütünde% 71.5 puan aldı ve Openai'nin O1-1217'sini% 75.7 ile takip etti. MMLU kıyaslamasında, Deepseek R1%90.8'e ulaştı, Openai'nin O1-1217'sinin biraz gerisinde%91.8 [3] [5].
- Güvenlik ve Güvenlik: Deepseek R1, siber suç ve yanlış bilgi gibi kategorileri içeren Harmbench karşılaştırması kullanılarak güvenlik güvenlik açıkları için test edildi. Model, Openai'nin O1'i gibi diğer modellere kıyasla önemli güvenlik endişelerini gösteren% 100 saldırı başarı oranı gösterdi [1].
Copilot kriterleri
Kopilot, özellikle Excel bağlamında, kafa kafaya karşılaştırmada derin arayışa karşı test edilmiştir:
- Excel formül oluşturma: Copilot, otomatik tasarruf gerekliliği nedeniyle formül yaratma ile mücadele ederken, Deep Seek daha esnek çözümler sunarak daha az denemede sorunları çözdü [2].
-Excel Formül Açıklama: Copilot sözdizimi tabanlı açıklamalar sunarken, Deep Seek karmaşık formüllerin daha net, daha pratik dökümlerini sağlayarak daha kullanıcı dostu hale getirdi [2].
Copilot, çeşitli akıl yürütme ve kodlama görevlerinde Deepseek ile aynı şekilde kapsamlı bir şekilde karşılaştırılmamış olsa da, özellikle Microsoft ortamlarında kodlama yardımındaki yetenekleri ile tanınmaktadır [4].
Alıntılar:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-depseek-and-frontier-weasoning-modeller
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-dep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-maig/the-ultate-showdown-chatgpt-vs-deepseek-vs-gwen-vs-smistral-33kd
[5] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ragainst-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distoled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-dest-its-pormance-compares-against-i-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-evailable-onasure-ai-foundry-and-github/