ใน Deepseek-V3 คะแนนความสัมพันธ์มีบทบาทสำคัญในกระบวนการคัดเลือกผู้เชี่ยวชาญภายในสถาปัตยกรรมผสม (MOE) สถาปัตยกรรมนี้ได้รับการออกแบบมาเพื่อจัดการงานการสร้างแบบจำลองภาษาขนาดใหญ่อย่างมีประสิทธิภาพโดยการเปิดใช้งานชุดย่อยของผู้เชี่ยวชาญตามแบบไดนามิก
การคำนวณคะแนนความสัมพันธ์
คะแนนความสัมพันธ์ถูกคำนวณเป็นผลิตภัณฑ์ DOT ของการฝังของโทเค็นอินพุตและเซนทรอยด์ของผู้เชี่ยวชาญเฉพาะ เซนทรอยด์สามารถคิดว่าเป็นเวกเตอร์ตัวแทนสำหรับผู้เชี่ยวชาญแต่ละคนซึ่งอาจได้มาจากการเปิดใช้งานโดยเฉลี่ยหรืออินพุตที่ผู้เชี่ยวชาญกระบวนการ ผลิตภัณฑ์ DOT นี้วัดว่าโทเค็นจัดเรียงอย่างใกล้ชิดกับความเชี่ยวชาญของผู้เชี่ยวชาญแต่ละคนที่มีอยู่
กระบวนการเลือกผู้เชี่ยวชาญ
1. การกำหนดเส้นทาง TOP-K: สำหรับแต่ละโทเค็นอินพุต DEEPSEEK-V3 เลือกผู้เชี่ยวชาญ 8 อันดับแรกที่มีคะแนนความสัมพันธ์สูงสุด กระบวนการนี้เรียกว่าการกำหนดเส้นทาง Top-K โดยที่ K ได้รับการแก้ไขที่ 8 ในกรณีนี้ [1] [7]
2. การปรับอคติ: เพื่อป้องกันการล่มสลายของเส้นทางที่โทเค็นจำนวนมากเกินไปจะถูกส่งไปยังผู้เชี่ยวชาญเดียวกัน Deepseek-V3 แนะนำการปรับอคติแบบไดนามิก ผู้เชี่ยวชาญแต่ละคนมีคำอคติ $$ b_i $$ ที่เพิ่มเข้ากับคะแนนความสัมพันธ์ระหว่างการกำหนดเส้นทาง หากผู้เชี่ยวชาญมีน้ำหนักมากเกินไปอคติของมันจะลดลงและหากมีการลดทอนความเอนเอียงของมันจะเพิ่มขึ้น การปรับนี้ช่วยรักษาภาระงานที่สมดุลในผู้เชี่ยวชาญทุกคนโดยไม่ต้องใช้การสูญเสียเสริมที่ชัดเจน [1] [3]
3. กลไกการ gating: กลไกการ gating คำนวณคะแนนสำหรับแต่ละโทเค็นและเลือกผู้เชี่ยวชาญที่กำหนดเส้นทางที่เกี่ยวข้องมากที่สุดตามคะแนนเหล่านี้ สิ่งนี้ทำให้มั่นใจได้ว่าแบบจำลองจะจัดสรรทรัพยากรการคำนวณอย่างมีประสิทธิภาพโดยการเปิดใช้งานผู้เชี่ยวชาญที่จำเป็นสำหรับแต่ละโทเค็น [3]
ประโยชน์ของคะแนนความสัมพันธ์
- ประสิทธิภาพ: โดยการเลือกผู้เชี่ยวชาญตามคะแนนความสัมพันธ์ DEEPSEEK-V3 จะลดค่าใช้จ่ายในการคำนวณโดยการเปิดใช้งานเพียงเศษเสี้ยวของพารามิเตอร์ทั้งหมดของโมเดลสำหรับแต่ละโทเค็น สิ่งนี้ส่งผลให้การอนุมานและกระบวนการฝึกอบรมมีประสิทธิภาพมากขึ้น [4] [8]
- ความเชี่ยวชาญ: คะแนนความสัมพันธ์ช่วยให้มีความเชี่ยวชาญที่ดีขึ้นในหมู่ผู้เชี่ยวชาญ ผู้เชี่ยวชาญแต่ละคนสามารถมุ่งเน้นไปที่รูปแบบหรืองานที่เฉพาะเจาะจงเพิ่มพลังการเป็นตัวแทนโดยรวมของโมเดลและความสามารถในการจัดการอินพุตที่หลากหลาย [1] [2]
- ความเสถียร: การปรับอคติแบบไดนามิกช่วยให้มั่นใจได้ว่าไม่มีผู้เชี่ยวชาญมากเกินไปรักษาเสถียรภาพในระหว่างการฝึกอบรมและการอนุมาน สิ่งนี้ป้องกันไม่ให้โมเดลลดลงเนื่องจากการโอเวอร์โหลดซึ่งเป็นปัญหาในเวอร์ชันก่อนหน้า [2] [3]
โดยสรุปคะแนนความสัมพันธ์ใน Deepseek-V3 เป็นสิ่งสำคัญสำหรับการเลือกผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดสำหรับแต่ละโทเค็นอินพุตเพื่อให้มั่นใจว่าการประมวลผลที่มีประสิทธิภาพและเฉพาะเจาะจงในขณะที่รักษาเสถียรภาพของแบบจำลอง
การอ้างอิง:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=BV7CT-_SPQY
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he--nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamically-selecting-number-expert-omo
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond