Sigmoid gating ใน Deepseek-V3 มีบทบาทสำคัญในการเพิ่มประสิทธิภาพการคำนวณของแบบจำลองโดยเฉพาะอย่างยิ่งภายในกรอบการผสมผสาน (MOE) ซึ่งแตกต่างจากโมเดล MOE แบบดั้งเดิมที่ใช้ Softmax gating ซึ่งสามารถสร้างสภาพแวดล้อมการแข่งขันในหมู่ผู้เชี่ยวชาญ Deepseek-V3 ใช้ sigmoid gating เพื่อให้ผู้เชี่ยวชาญแต่ละคนมีโอกาสให้คะแนนที่ยุติธรรม วิธีการนี้กำหนดคะแนนระหว่าง 0 ถึง 1 ให้กับผู้เชี่ยวชาญแต่ละคนเพื่อให้สามารถเลือกกระบวนการคัดเลือกที่เหมาะสมยิ่งขึ้นโดยไม่ต้องบังคับการแข่งขัน cutthroat ในหมู่พวกเขา
วิธีการทำงานของ sigmoid gating
1. การให้คะแนนจากผู้เชี่ยวชาญ: ผู้เชี่ยวชาญแต่ละคนในกรอบ MOE ได้รับการกำหนดคะแนนโดยใช้ฟังก์ชัน sigmoid คะแนนนี้แสดงถึงความเป็นไปได้ของผู้เชี่ยวชาญที่ได้รับการคัดเลือกสำหรับงานเฉพาะ ซึ่งแตกต่างจาก Softmax ซึ่งเป็นปกติคะแนนเพื่อให้แน่ใจว่ารวมเป็น 1 Sigmoid Gating ช่วยให้ผู้เชี่ยวชาญหลายคนมีคะแนนสูงพร้อมกันช่วยอำนวยความสะดวกในสภาพแวดล้อมการทำงานร่วมกันมากขึ้น
2. Gating ลำดับชั้น: การใช้ sigmoid gating เป็นส่วนหนึ่งของกลไกการ gating แบบลำดับชั้น สิ่งนี้เกี่ยวข้องกับการเลือกหลายเลเยอร์เริ่มต้นด้วยการกรองกลุ่มซึ่งมีการพิจารณากลุ่มผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดเท่านั้นตามด้วยการเลือกผู้เชี่ยวชาญซึ่งมีการเลือกผู้เชี่ยวชาญด้านการให้คะแนนสูงสุดภายในกลุ่มเหล่านั้น วิธีการแบบลำดับชั้นนี้ทำให้มั่นใจได้ว่าการผสมผสานที่ดีที่สุดของผู้เชี่ยวชาญจะถูกเลือกสำหรับแต่ละงาน
3. การบาลานซ์โหลด: ในขณะที่ Sigmoid Gating เองไม่ได้จัดการกับการปรับสมดุลโหลดโดยตรงมันทำงานร่วมกับกลยุทธ์การปรับสมดุลการโหลดที่ปราศจากการสูญเสียของ Deepseek-V3 กลยุทธ์นี้ใช้การปรับอคติแบบไดนามิกเพื่อให้แน่ใจว่าไม่มีผู้เชี่ยวชาญคนใดคนเดียวที่มีการทำงานมากเกินไปรักษาประสิทธิภาพการคำนวณโดยการป้องกันคอขวด
การมีส่วนร่วมในประสิทธิภาพการคำนวณ
- ค่าใช้จ่ายในการคำนวณลดลง: โดยการเลือกผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดสำหรับแต่ละงาน Sigmoid Gating ช่วยลดค่าใช้จ่ายในการคำนวณที่เกี่ยวข้องกับการเปิดใช้งานส่วนที่ไม่จำเป็นของโมเดล การเปิดใช้งานการเลือกนี้เป็นคุณสมบัติสำคัญของสถาปัตยกรรม MOE ทำให้ DeepSeek-V3 ใช้เพียงเศษเสี้ยวของพารามิเตอร์ทั้งหมดสำหรับงานใด ๆ ที่กำหนด
- การปรับปรุงการใช้ทรัพยากร: การรวมกันของ sigmoid gating กับการปรับอคติแบบไดนามิกทำให้มั่นใจได้ว่าทรัพยากรการคำนวณจะถูกใช้อย่างมีประสิทธิภาพ สิ่งนี้จะช่วยป้องกันการใช้ผู้เชี่ยวชาญบางคนมากเกินไปซึ่งสามารถนำไปสู่คอขวดการคำนวณและลดประสิทธิภาพโดยรวม
- ความสามารถในการปรับขนาดที่เพิ่มขึ้น: โดยการเพิ่มประสิทธิภาพการจัดสรรทรัพยากรและสร้างความมั่นใจในการใช้ประโยชน์จากผู้เชี่ยวชาญที่สมดุล sigmoid gating มีส่วนช่วยในการปรับขนาดของโมเดล Deepseek-V3 สามารถจัดการกับการคำนวณขนาดใหญ่ได้อย่างมีประสิทธิภาพทำให้เหมาะสำหรับการใช้งานที่หลากหลายโดยไม่จำเป็นต้องใช้ทรัพยากรการคำนวณที่มากเกินไป
โดยสรุป Sigmoid gating ใน Deepseek-V3 ช่วยเพิ่มประสิทธิภาพการคำนวณโดยอำนวยความสะดวกในกระบวนการเลือกผู้เชี่ยวชาญที่เหมาะสมยิ่งขึ้นและทำงานร่วมกันซึ่งเมื่อรวมกับนวัตกรรมอื่น ๆ เช่นการปรับอคติแบบไดนามิกและกรอบ MOE นำไปสู่การใช้ทรัพยากรที่ดีขึ้น วิธีการนี้ช่วยให้ DeepSeek-V3 ได้ประสิทธิภาพสูงในขณะที่ยังคงรักษารอยเท้าการคำนวณที่ลดลงอย่างมีนัยสำคัญเมื่อเทียบกับแบบจำลองดั้งเดิม [1] [3] [4]
การอ้างอิง:
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://alliedinsight.com/blog/deepseks-technological-innovations-a-deep-dive-into-the-v3-model/
[3] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-explained/
[4] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[5] https://www.swiftask.ai/blog/deepseek-v3-the-next-generation-ai
[6] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-pled-hardware/