Humaneval ve GSM8K Kıyaslamalarında Deepseek Performans

Deepseek'in Humaneval ve GSM8K gibi ölçütlerdeki performansı diğer modellerle karşılaştırılıyor

Deepseek'in Humaneval ve GSM8K gibi ölçütlerdeki performansı, büyük dil modellerinin (LLMS) manzarasında rekabet kenarını sergiliyor.

Performans Metrikleri

** Humaneval: Deepseek, çeşitli programlama görevleri yoluyla kodlama yeteneğini değerlendiren Humaneval ölçütünde% 73.78 puan alır. Bu puan, GPT-4 veya Llama 3 gibi modellerle özel karşılaştırmalar mevcut kaynaklarda ayrıntılı olmamasına rağmen, Openai'nin teklifleri de dahil olmak üzere diğer önde gelen modellere karşı olumlu bir konumlandırılmıştır.

** GSM8K: Problem çözme görevlerinde Deepseek, GSM8K ölçütünde etkileyici bir% 84.1 elde ediyor. Bu puan, matematiksel akıl yürütme ve karmaşık problem çözme senaryolarını etkili bir şekilde ele alma yeteneğini yansıtmaktadır.

Verimlilik ve Kaynak Kullanımı

Deepseek'in mimarisi, görevler sırasında toplam parametrelerinin (671 milyar) sadece bir kısmını (671 milyar) aktive eden bir uzmanlık karışımı (MOE) sistemi kullanıyor. Bu seçici aktivasyon sadece performansı arttırmakla kalmaz, aynı zamanda hesaplama maliyetlerini de önemli ölçüde azaltır ve Deepseek'in sadece 2,8 milyon GPU saatiyle bu ölçüt puanlarına ulaşmasına izin verir, bu da benzer performans seviyeleri için daha geniş kaynak gerektiren diğer birçok modelden önemli ölçüde daha düşüktür [2] [2] [ 3].

Diğer modellerle karşılaştırma

Arama sonuçlarında GPT-4 gibi modellerle spesifik doğrudan karşılaştırmalar sağlanmamış olsa da, Deepseek'in verimliliğinin ve açık kaynaklı doğanın, tescilli çözümlerin maliyet kârlı bulan geliştiriciler için cazip bir alternatif haline geldiği belirtilmektedir. Modelin 128K jetonuna kadar uzun bağlam pencerelerini işleme yeteneği, onu genellikle daha az jetonu (genellikle 32K ile 64K arasında) destekleyen birçok yarışmacıdan daha da ayırır [2] [3].

Özetle, Deepseek, maliyet verimliliğini ve operasyonel etkinliği korurken temel kriterlerde güçlü performans sergiliyor ve bu da onu çağdaş LLM'ler arasında kayda değer bir yarışmacı haline getiriyor.

Alıntılar:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-verything you-need-to-nown-about-this-new-lm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1