Deepseek dan Copilot telah diuji terhadap berbagai tolok ukur, menampilkan kemampuan mereka di berbagai bidang.
tolok ukur deepseek
Deepseek, khususnya model R1 -nya, telah dievaluasi di beberapa tolok ukur:
- Tolok ukur matematika: Deepseek R1 berkinerja kuat dalam matematika, mencetak 79,8% pada tolok ukur AIME 2024, sedikit di depan O1-1217 Openai pada 79,2%. Pada patokan Math-500, Deepseek R1 mencapai 97,3%yang mengesankan, melampaui O1-1217 Openai pada 96,4%[3] [5].
- Coding Benchmarks: Dalam tugas pengkodean, Deepseek R1 mencapai 96,3% kompetitif pada tolok ukur kodmores, dengan cermat mengikuti O1-1217 Openai pada 96,6%. Pada tolok ukur terverifikasi SWE-Bench, Deepseek R1 mencetak 49,2%, sedikit di depan O1-1217 Openai pada 48,9%[3] [5].
- Tolok ukur pengetahuan umum: Deepseek R1 mencetak 71,5% pada patokan GPQA Diamond, membuntuti O1-1217 Openai di 75,7%. Pada patokan MMLU, Deepseek R1 mencapai 90,8%, sedikit di belakang O1-1217 Openai pada 91,8%[3] [5].
- Keamanan dan Keselamatan: Deepseek R1 diuji untuk kerentanan keamanan menggunakan tolok ukur Harmbench, yang mencakup kategori seperti kejahatan dunia maya dan informasi yang salah. Model ini menunjukkan tingkat keberhasilan serangan 100%, menunjukkan masalah keamanan yang signifikan dibandingkan dengan model lain seperti Openai's O1 [1].
tolok ukur kopilot
Copilot, khususnya dalam konteks Excel, telah diuji terhadap pencarian mendalam dalam perbandingan head-to-head:
- Excel Formula Creation: Copilot berjuang dengan pembuatan formula karena persyaratannya untuk penyelamatan otomatis, sementara pencarian yang dalam memberikan solusi yang lebih fleksibel, menyelesaikan masalah dalam upaya yang lebih sedikit [2].
-Excel Formula Penjelasan: Copilot menawarkan penjelasan berbasis sintaks, sedangkan pencarian yang dalam memberikan rincian rumus kompleks yang lebih jelas dan lebih praktis, membuatnya lebih ramah pengguna [2].
Sementara kopilot belum secara luas dibandingkan dengan cara yang sama seperti Deepseek di berbagai tugas penalaran dan pengkodean, ia diakui karena kemampuannya dalam bantuan pengkodean, terutama di dalam lingkungan Microsoft [4].
Kutipan:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-catgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-te-test-how-its-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/