ความแตกต่างที่สำคัญระหว่างกลไกการกำหนดเส้นทางผู้เชี่ยวชาญใน Deepseek-V2 และ Deepseek-V3 สามารถสรุปได้ดังนี้:
การกำหนดเส้นทางผู้เชี่ยวชาญ Deepseek-V2
-กลไกการกำหนดเส้นทางที่ จำกัด อุปกรณ์: Deepseek-V2 ใช้กลไกการกำหนดเส้นทางที่ จำกัด อุปกรณ์เพื่อแจกจ่ายผู้เชี่ยวชาญข้ามอุปกรณ์หลายเครื่อง วิธีการนี้ช่วยให้มั่นใจได้ว่าผู้เชี่ยวชาญเป้าหมายสำหรับโทเค็นแต่ละตัวจะกระจายไปทั่วอุปกรณ์จำนวน จำกัด โดยทั่วไปจะเลือกผู้เชี่ยวชาญด้านบน K จากอุปกรณ์เหล่านี้ กลยุทธ์นี้ช่วยจัดการค่าใช้จ่ายในการสื่อสารและสร้างความมั่นใจในการประมวลผลแบบขนานที่มีประสิทธิภาพ [1] [5]
-การสูญเสียเสริมสำหรับสมดุลโหลด: Deepseek-V2 แนะนำการสูญเสียเสริมระดับสามประเภทของผู้เชี่ยวชาญระดับอุปกรณ์และระดับการสื่อสารเพื่อรักษาสมดุลโหลดในระหว่างการฝึกอบรม การสูญเสียเหล่านี้ช่วยป้องกันการล่มสลายของการกำหนดเส้นทางโดยทำให้มั่นใจว่าไม่มีการใช้ผู้เชี่ยวชาญเพียงคนเดียวในขณะที่คนอื่น ๆ ยังคงอยู่ในระดับต่ำ [1] [6]
- จำนวนผู้เชี่ยวชาญและการเปิดใช้งาน: Deepseek-V2 มีผู้เชี่ยวชาญ 160 คนบวกกับผู้เชี่ยวชาญที่ใช้ร่วมกันสองคนโดยมีผู้เชี่ยวชาญเพียงหกคนเท่านั้นที่เปิดใช้งานในระหว่างการอนุมาน การเปิดใช้งานการเลือกนี้ช่วยลดจำนวนพารามิเตอร์ที่ใช้งานได้อย่างมีนัยสำคัญทำให้โมเดลมีประสิทธิภาพมากขึ้น [5]
การกำหนดเส้นทางผู้เชี่ยวชาญ Deepseek-V3
- ความเชี่ยวชาญเฉพาะด้านของผู้เชี่ยวชาญ: Deepseek-V3 สร้างขึ้นบนสถาปัตยกรรม MOE โดยการเพิ่มจำนวนผู้เชี่ยวชาญที่กำหนดเส้นทางต่อเลเยอร์ 60%จาก 160 เป็น 256 สิ่งนี้เพิ่มความสามารถของโมเดลสำหรับความรู้และหน่วยความจำ [2]
- ผู้เชี่ยวชาญที่ใช้ร่วมกัน: Deepseek-V3 ยังคงแนวคิดของผู้เชี่ยวชาญที่ใช้ร่วมกันซึ่งเปิดใช้งานอยู่เสมอ เลเยอร์เครือข่ายฟีดไปข้างหน้า (FFN) แต่ละชั้นมีผู้เชี่ยวชาญร่วมกันหนึ่งคนและมีสามชั้นที่ผู้เชี่ยวชาญทั้งหมดเปิดใช้งานปรับปรุงความสามารถของโมเดลในการจับความรู้ทั่วไปในบริบท [2] [4]
-Token-to-expert affinity: การกำหนดโทเค็นให้กับผู้เชี่ยวชาญขึ้นอยู่กับความสัมพันธ์ของโทเค็นกับ expert ในพื้นที่ฝังตัว อย่างไรก็ตาม Deepseek-V3 ต้องเผชิญกับความท้าทายที่เกี่ยวข้องกับการล่มสลายของเส้นทางโดยที่โทเค็นอาจถูกส่งไปยังผู้เชี่ยวชาญเดียวกันอย่างต่อเนื่องซึ่งอาจขัดขวางการฝึกอบรมของผู้เชี่ยวชาญอื่น ๆ [2]
- กลยุทธ์ MOE ที่ก้าวร้าว: Deepseek-V3 ใช้กลยุทธ์ MOE ที่ก้าวร้าวมากขึ้นโดยใช้ความแม่นยำ FP8 สำหรับการฝึกอบรมซึ่งช่วยให้การคำนวณและการปรับขนาดมีประสิทธิภาพมากขึ้น วิธีการนี้ช่วยให้แบบจำลองสามารถใช้ประโยชน์จากการเปิดใช้งานได้อย่างมีประสิทธิภาพเพิ่มประสิทธิภาพการใช้พารามิเตอร์ในระหว่างการอนุมาน [2] [4]
โดยสรุปในขณะที่ทั้งสองรุ่นใช้สถาปัตยกรรม MOE สำหรับการกำหนดเส้นทางที่มีประสิทธิภาพและการเปิดใช้งานแบบเบาบาง Deepseek-V3 ช่วยเพิ่มวิธีการนี้ด้วยความเชี่ยวชาญของผู้เชี่ยวชาญที่เพิ่มขึ้นกลยุทธ์ MOE ที่ก้าวร้าวมากขึ้นและการปรับเปลี่ยนการกำหนดค่าผู้เชี่ยวชาญที่ใช้ร่วมกัน Deepseek-V2 มุ่งเน้นไปที่การฝึกอบรมที่ประหยัดและการอนุมานที่มีประสิทธิภาพผ่านการกำหนดเส้นทางที่ จำกัด อุปกรณ์และการสูญเสียเสริมโหลดบาลานซ์
การอ้างอิง:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434V3
[8] https://www.youtube.com/watch?v=4UCNSFBMDA