sigmoid gating ใน deepseek-v3: ป้องกันการล่มสลายของเส้นทางในแบบจำลองส่วนผสมของ experts

Sigmoid Gating ใน Deepseek-V3 มีบทบาทสำคัญในการป้องกันการล่มสลายของการกำหนดเส้นทางปัญหาทั่วไปในแบบจำลองการผสมผสาน (MOE) ที่มีผู้เชี่ยวชาญเพียงไม่กี่คนที่ได้รับความนิยมมากกว่าผู้อื่นซึ่งนำไปสู่การฝึกอบรมที่ไม่มีประสิทธิภาพและการใช้ทรัพยากรแบบจำลอง นี่คือวิธีที่ Sigmoid Gating ช่วย:

softmax แบบดั้งเดิม gating กับ sigmoid gating

โมเดล MOE แบบดั้งเดิมมักจะใช้ SoftMax Gating ซึ่งสามารถนำไปสู่สถานการณ์ "ผู้ชนะ-Takes-all" เอาต์พุต SoftMax เป็นมาตรฐานเพื่อให้แน่ใจว่ารวมเป็น 1 ซึ่งอาจส่งผลให้มีความน่าจะเป็นอย่างมากที่ผู้เชี่ยวชาญคนหนึ่งถูกเลือกเกือบโดยเฉพาะอย่างยิ่งหากน้ำหนักเริ่มต้นดีขึ้นเล็กน้อย สิ่งนี้สามารถทำให้ผู้เชี่ยวชาญคนอื่น ๆ ได้รับการรักษาด้วยวิธีการที่ไม่ได้รับการฝึกฝนและนำไปสู่การล่มสลายของเส้นทาง

ในทางตรงกันข้าม Sigmoid Gating กำหนดคะแนนให้ผู้เชี่ยวชาญแต่ละคนระหว่าง 0 ถึง 1 อย่างอิสระโดยไม่มีการทำให้เป็นมาตรฐานในผู้เชี่ยวชาญ ซึ่งหมายความว่าผู้เชี่ยวชาญหลายคนสามารถมีคะแนนสูงพร้อมกันช่วยให้มีการกระจายโทเค็นที่สมดุลมากขึ้นในผู้เชี่ยวชาญ Sigmoid Gating ไม่ได้บังคับใช้การแข่งขันที่เข้มงวดในหมู่ผู้เชี่ยวชาญลดโอกาสในการล่มสลายของการกำหนดเส้นทางโดยทำให้มั่นใจว่าผู้เชี่ยวชาญแต่ละคนจะได้รับโอกาสที่ยุติธรรมในการมีส่วนร่วม [1] [4] [6]

การปรับอคติแบบไดนามิก

Deepseek-V3 ช่วยเพิ่ม sigmoid gating โดยการแนะนำเงื่อนไขอคติแบบไดนามิกสำหรับผู้เชี่ยวชาญแต่ละคน อคติเหล่านี้จะถูกปรับระหว่างการฝึกอบรมตามภาระของผู้เชี่ยวชาญแต่ละคน หากผู้เชี่ยวชาญมีน้ำหนักมากเกินไปอคติของมันจะลดลงเพื่อกีดกันการกำหนดเส้นทางต่อไป การปรับแบบไดนามิกนี้ช่วยรักษาภาระที่สมดุลในผู้เชี่ยวชาญทุกคนป้องกันไม่ให้ผู้เชี่ยวชาญคนใดคนหนึ่งมีอำนาจเหนือการตัดสินใจเส้นทางและป้องกันการล่มสลายของการกำหนดเส้นทาง [2] [4] [6]

gating ลำดับชั้น

Deepseek-V3 ยังใช้ gating แบบลำดับชั้นซึ่งใช้ข้อ จำกัด sparsity ในหลายระดับ ในขั้นต้นมีการเลือกผู้เชี่ยวชาญหยาบตามด้วยการกรองที่ดีขึ้นภายในกลุ่มที่เลือก วิธีการแบบลำดับชั้นนี้ช่วยให้มั่นใจได้ว่าชุดผู้เชี่ยวชาญที่หลากหลายจะถูกเปิดใช้งานสำหรับแต่ละโทเค็นช่วยลดความเสี่ยงของการล่มสลายของการกำหนดเส้นทางโดยการป้องกันการใช้ประโยชน์มากเกินไปและส่งเสริมการวางนัยทั่วไปในโดเมนที่แตกต่างกัน [1] [6]

การกำหนดเส้นทางที่ จำกัด โหนด

นอกจากนี้ DeepSeek-V3 ใช้การกำหนดเส้นทางที่ จำกัด โหนดซึ่ง จำกัด จำนวนโหนดแต่ละโทเค็นที่สามารถสื่อสารได้ กลยุทธ์นี้ช่วยลดค่าใช้จ่ายในการสื่อสารข้ามโหนดทำให้มั่นใจได้ว่าการฝึกอบรมที่มีประสิทธิภาพและการอนุมานในขณะที่ยังคงใช้การใช้ประโยชน์จากผู้เชี่ยวชาญที่สมดุล [6]

โดยสรุป sigmoid gating ใน Deepseek-V3 ช่วยป้องกันการล่มสลายของการกำหนดเส้นทางโดยอนุญาตให้ผู้เชี่ยวชาญหลายคนเปิดใช้งานพร้อมกันโดยไม่ต้องบังคับให้มีการแข่งขันที่เข้มงวดในหมู่พวกเขา การปรับอคติแบบไดนามิกและการ gating ลำดับชั้นเพิ่มเติมตรวจสอบให้แน่ใจว่าผู้เชี่ยวชาญแต่ละคนถูกใช้อย่างมีประสิทธิภาพรักษาภาระที่สมดุลและป้องกันไม่ให้ผู้เชี่ยวชาญใด ๆ ที่มีอำนาจเหนือการตัดสินใจเส้นทาง

การอ้างอิง:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms

Sigmoid Gating ช่วยในการป้องกันการล่มสลายของการล่มสลายใน Deepseek-V3 ได้อย่างไร

softmax แบบดั้งเดิม gating กับ sigmoid gating

การปรับอคติแบบไดนามิก

gating ลำดับชั้น

การกำหนดเส้นทางที่ จำกัด โหนด