Performa Deepseek pada tolok ukur Humaneval dan GSM8K

Bagaimana kinerja Deepseek pada tolok ukur seperti Humaneval dan GSM8K dibandingkan dengan model lain

Kinerja Deepseek pada tolok ukur seperti Humaneval dan GSM8K menampilkan keunggulan kompetitifnya dalam lanskap model bahasa besar (LLM).

Metrik Kinerja

** Humaneval: Deepseek Skor 73,78% pada tolok ukur manusia, yang menilai kemampuan pengkodean melalui berbagai tugas pemrograman. Skor ini memposisikannya dengan baik terhadap model terkemuka lainnya, termasuk penawaran Openai, meskipun perbandingan khusus dengan model seperti GPT-4 atau Llama 3 tidak dirinci dalam sumber yang tersedia.

** GSM8K: Dalam tugas pemecahan masalah, Deepseek mencapai 84,1% yang mengesankan pada patokan GSM8K. Skor ini mencerminkan kemampuannya dalam menangani penalaran matematika dan skenario pemecahan masalah yang kompleks secara efektif.

Efisiensi dan pemanfaatan sumber daya

Arsitektur Deepseek menggunakan sistem campuran-ekspert (MOE), hanya mengaktifkan sebagian kecil dari total parameternya (671 miliar) selama tugas-tugas khususnya sekitar 37 miliar. Aktivasi selektif ini tidak hanya meningkatkan kinerja tetapi juga secara signifikan mengurangi biaya komputasi, memungkinkan Deepseek untuk mencapai skor tolok ukur ini dengan hanya 2,8 juta gpu-jam, yang jauh lebih rendah daripada banyak model lain yang membutuhkan sumber daya yang lebih luas untuk tingkat kinerja yang sama [2] [ 3].

Perbandingan dengan model lain

Sementara perbandingan langsung spesifik dengan model seperti GPT-4 tidak disediakan dalam hasil pencarian, perlu dicatat bahwa efisiensi Deepseek dan sifat open-source menjadikannya alternatif yang menarik bagi pengembang yang mungkin menemukan solusi eksklusif biaya mahal. Kemampuan model untuk menangani jendela konteks panjang hingga 128k token lebih jauh membedakannya dari banyak pesaing, yang biasanya mendukung lebih sedikit token (biasanya antara 32k dan 64k) [2] [3].

Singkatnya, Deepseek menunjukkan kinerja yang kuat pada tolok ukur utama sambil mempertahankan efisiensi biaya dan efektivitas operasional, menjadikannya pesaing yang patut diperhatikan di antara LLM kontemporer.

Kutipan:
[1] https://artitifialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-to-now-about-this-new-llm-in-one-place
[3] https://artitifialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1