Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Deepseek ve Copilot'a karşı hangi belirli kriterler test edildi


Deepseek ve Copilot'a karşı hangi belirli kriterler test edildi


Deepseek ve Copilot, farklı alanlarda yeteneklerini sergileyen çeşitli kriterlere karşı test edildi.

Deepseek Kıyasları

Deepseek, özellikle R1 modeli, çeşitli kriterlerde değerlendirilmiştir:

- Matematik Kıyasları: Deepseek R1, AIME 2024 ölçütünde% 79,8 puan, Openai'nin O1-1217'sinin biraz önünde% 79.2 ile güçlü bir performans sergiledi. Math-500 ölçütünde, Deepseek R1%97.3'ü etkileyici bir%97.3 elde etti ve Openai'nin O1-1217'sini%96.4 olarak aştı [3] [5].

- Kodlama ölçütleri: Kodlama görevlerinde, Deepseek R1, Openai'nin O1-1217'sini% 96.6'da yakından takip ederek CodeForces karşılaştırmasında rekabetçi bir% 96,3 elde etti. SWE-Bench doğrulanmış kıyaslamada, Deepseek R1%49.2 puan aldı, Openai'nin O1-1217'sinin biraz önünde%48.9 [3] [5].

- Genel bilgi ölçütleri: Deepseek R1, GPQA elmas ölçütünde% 71.5 puan aldı ve Openai'nin O1-1217'sini% 75.7 ile takip etti. MMLU kıyaslamasında, Deepseek R1%90.8'e ulaştı, Openai'nin O1-1217'sinin biraz gerisinde%91.8 [3] [5].

- Güvenlik ve Güvenlik: Deepseek R1, siber suç ve yanlış bilgi gibi kategorileri içeren Harmbench karşılaştırması kullanılarak güvenlik güvenlik açıkları için test edildi. Model, Openai'nin O1'i gibi diğer modellere kıyasla önemli güvenlik endişelerini gösteren% 100 saldırı başarı oranı gösterdi [1].

Copilot kriterleri

Kopilot, özellikle Excel bağlamında, kafa kafaya karşılaştırmada derin arayışa karşı test edilmiştir:

- Excel formül oluşturma: Copilot, otomatik tasarruf gerekliliği nedeniyle formül yaratma ile mücadele ederken, Deep Seek daha esnek çözümler sunarak daha az denemede sorunları çözdü [2].

-Excel Formül Açıklama: Copilot sözdizimi tabanlı açıklamalar sunarken, Deep Seek karmaşık formüllerin daha net, daha pratik dökümlerini sağlayarak daha kullanıcı dostu hale getirdi [2].

Copilot, çeşitli akıl yürütme ve kodlama görevlerinde Deepseek ile aynı şekilde kapsamlı bir şekilde karşılaştırılmamış olsa da, özellikle Microsoft ortamlarında kodlama yardımındaki yetenekleri ile tanınmaktadır [4].

Alıntılar:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-depseek-and-frontier-weasoning-modeller
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-dep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-maig/the-ultate-showdown-chatgpt-vs-deepseek-vs-gwen-vs-smistral-33kd
[5] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ragainst-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distoled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-test-dest-its-pormance-compares-against-i-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-evailable-onasure-ai-foundry-and-github/