Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Tolok ukur spesifik apa yang memiliki Deepseek dan Copilot telah diuji


Tolok ukur spesifik apa yang memiliki Deepseek dan Copilot telah diuji


Deepseek dan Copilot telah diuji terhadap berbagai tolok ukur, menampilkan kemampuan mereka di berbagai bidang.

tolok ukur deepseek

Deepseek, khususnya model R1 -nya, telah dievaluasi di beberapa tolok ukur:

- Tolok ukur matematika: Deepseek R1 berkinerja kuat dalam matematika, mencetak 79,8% pada tolok ukur AIME 2024, sedikit di depan O1-1217 Openai pada 79,2%. Pada patokan Math-500, Deepseek R1 mencapai 97,3%yang mengesankan, melampaui O1-1217 Openai pada 96,4%[3] [5].

- Coding Benchmarks: Dalam tugas pengkodean, Deepseek R1 mencapai 96,3% kompetitif pada tolok ukur kodmores, dengan cermat mengikuti O1-1217 Openai pada 96,6%. Pada tolok ukur terverifikasi SWE-Bench, Deepseek R1 mencetak 49,2%, sedikit di depan O1-1217 Openai pada 48,9%[3] [5].

- Tolok ukur pengetahuan umum: Deepseek R1 mencetak 71,5% pada patokan GPQA Diamond, membuntuti O1-1217 Openai di 75,7%. Pada patokan MMLU, Deepseek R1 mencapai 90,8%, sedikit di belakang O1-1217 Openai pada 91,8%[3] [5].

- Keamanan dan Keselamatan: Deepseek R1 diuji untuk kerentanan keamanan menggunakan tolok ukur Harmbench, yang mencakup kategori seperti kejahatan dunia maya dan informasi yang salah. Model ini menunjukkan tingkat keberhasilan serangan 100%, menunjukkan masalah keamanan yang signifikan dibandingkan dengan model lain seperti Openai's O1 [1].

tolok ukur kopilot

Copilot, khususnya dalam konteks Excel, telah diuji terhadap pencarian mendalam dalam perbandingan head-to-head:

- Excel Formula Creation: Copilot berjuang dengan pembuatan formula karena persyaratannya untuk penyelamatan otomatis, sementara pencarian yang dalam memberikan solusi yang lebih fleksibel, menyelesaikan masalah dalam upaya yang lebih sedikit [2].

-Excel Formula Penjelasan: Copilot menawarkan penjelasan berbasis sintaks, sedangkan pencarian yang dalam memberikan rincian rumus kompleks yang lebih jelas dan lebih praktis, membuatnya lebih ramah pengguna [2].

Sementara kopilot belum secara luas dibandingkan dengan cara yang sama seperti Deepseek di berbagai tugas penalaran dan pengkodean, ia diakui karena kemampuannya dalam bantuan pengkodean, terutama di dalam lingkungan Microsoft [4].

Kutipan:
[1] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-versus-deep-seek-head-to-head-episode-2671.1269554/
[3] https://www.datacamp.com/blog/deepseek-r1
[4] https://dev.to/hanzla-baig/the-ultimate-showdown-catgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[6] https://www.reddit.com/r/localllama/comments/1i5q6b9/deepseekr1_and_distilled_benchmarks_color_coded/
[7] https://theconversation.com/putting-deepseek-to-te-test-how-its-performance-compares-against-other-ai-tools-248368
[8] https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/