การแสดงที่ลึกลงไปบนเกณฑ์มาตรฐาน HumanEval และ GSM8K

การแสดงของ Deepseek เกี่ยวกับมาตรฐานเช่น HumanEval และ GSM8K เปรียบเทียบกับรุ่นอื่น ๆ ได้อย่างไร

การแสดงของ Deepseek เกี่ยวกับมาตรฐานเช่น HumanEval และ GSM8K แสดงให้เห็นถึงความได้เปรียบในการแข่งขันภายในภูมิทัศน์ของแบบจำลองภาษาขนาดใหญ่ (LLMS)

ตัวชี้วัดประสิทธิภาพ

** Humaneval: Deepseek ทำคะแนน 73.78% ตามมาตรฐาน Humaneval ซึ่งประเมินความสามารถในการเข้ารหัสผ่านงานการเขียนโปรแกรมต่างๆ คะแนนนี้จัดวางไว้อย่างดีกับรุ่นชั้นนำอื่น ๆ รวมถึงข้อเสนอของ OpenAI แม้ว่าการเปรียบเทียบเฉพาะกับรุ่นเช่น GPT-4 หรือ Llama 3 ไม่ได้มีรายละเอียดในแหล่งข้อมูลที่มีอยู่

** GSM8K: ในงานการแก้ปัญหา Deepseek ประสบความสำเร็จ 84.1% ที่น่าประทับใจสำหรับเกณฑ์มาตรฐาน GSM8K คะแนนนี้สะท้อนให้เห็นถึงความสามารถในการจัดการการใช้เหตุผลทางคณิตศาสตร์และสถานการณ์การแก้ปัญหาที่ซับซ้อนอย่างมีประสิทธิภาพ

ประสิทธิภาพและการใช้ทรัพยากร

สถาปัตยกรรมของ Deepseek ใช้ระบบผสมของ Experts (MOE) โดยเปิดใช้งานเพียงเศษเสี้ยวของพารามิเตอร์ทั้งหมด (671 พันล้าน) ในระหว่างงานโดยเฉพาะประมาณ 37 พันล้าน การเปิดใช้งานการเลือกนี้ไม่เพียง แต่ช่วยเพิ่มประสิทธิภาพ แต่ยังช่วยลดค่าใช้จ่ายในการคำนวณได้อย่างมีนัยสำคัญทำให้ DeepSeek ได้รับคะแนนมาตรฐานเหล่านี้ด้วยเพียง 2.8 ล้าน GPU-hours ซึ่งต่ำกว่ารุ่นอื่น ๆ ที่ต้องใช้ทรัพยากรที่กว้างขวางมากขึ้นสำหรับระดับประสิทธิภาพที่คล้ายคลึงกัน [2] [2] [2] [2] 3].

เปรียบเทียบกับรุ่นอื่น ๆ

ในขณะที่การเปรียบเทียบโดยตรงเฉพาะกับแบบจำลองเช่น GPT-4 ไม่ได้ให้ไว้ในผลการค้นหา แต่ก็มีข้อสังเกตว่าประสิทธิภาพของ Deepseek และธรรมชาติโอเพนซอร์ซทำให้เป็นทางเลือกที่น่าสนใจสำหรับนักพัฒนาที่อาจพบวิธีแก้ปัญหาที่เป็นกรรมสิทธิ์ ความสามารถของโมเดลในการจัดการกับหน้าต่างบริบทที่ยาวนานถึง 128K โทเค็นแยกความแตกต่างจากคู่แข่งหลายรายซึ่งโดยทั่วไปจะรองรับโทเค็นน้อยลง (โดยปกติระหว่าง 32K และ 64K) [2] [3]

โดยสรุป Deepseek แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งเกี่ยวกับมาตรฐานที่สำคัญในขณะที่รักษาประสิทธิภาพต้นทุนและประสิทธิผลในการปฏิบัติงานทำให้เป็นคู่แข่งที่น่าสังเกตในหมู่ LLM แบบร่วมสมัย

การอ้างอิง:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek-everything-you-need-to-know-his-new-llm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/deepseek
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch?v=bosvi3hyhgi
[8] https://arxiv.org/html/2412.19437v1