ฟังก์ชั่นการเปิดใช้งาน Sigmoid ในการกำหนดเส้นทางผู้เชี่ยวชาญ Deepseek-V3

ใน Deepseek-V3 ฟังก์ชั่นการเปิดใช้งาน sigmoid มีบทบาทสำคัญในกระบวนการกำหนดเส้นทางผู้เชี่ยวชาญโดยการปรับเปลี่ยนวิธีการกำหนดโทเค็นให้กับผู้เชี่ยวชาญ ซึ่งแตกต่างจากรุ่นก่อนหน้านี้ที่ใช้ฟังก์ชั่น Softmax Deepseek-V3 ใช้ฟังก์ชัน sigmoid เพื่อคำนวณคะแนนความสัมพันธ์ระหว่างโทเค็นและผู้เชี่ยวชาญ การเปลี่ยนแปลงนี้ช่วยป้องกันความน่าจะเป็นจากการเลือกผู้เชี่ยวชาญที่รุนแรงซึ่งสามารถนำไปสู่การล่มสลายของการล่มสลายสถานการณ์ที่แบบจำลองสนับสนุนผู้เชี่ยวชาญสองสามคนเหนือผู้อื่นลดประโยชน์ของความเชี่ยวชาญและประสิทธิภาพ

ฟังก์ชั่นการเปิดใช้งาน Sigmoid ในการกำหนดเส้นทางผู้เชี่ยวชาญ

ฟังก์ชั่น sigmoid แสดงเป็น $$ \ sigma (\ cdot) $$ ใช้เพื่อคำนวณคะแนนความสัมพันธ์ระหว่างโทเค็นและผู้เชี่ยวชาญ โดยเฉพาะคะแนน $$ s_ {i, t} $$ สำหรับโทเค็น $$ t $$ และผู้เชี่ยวชาญ $$ i $$ คำนวณเป็น:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
โดยที่ $$ u_t $$ เป็นการฝังโทเค็นและ $$ e_i $$ เป็นเวกเตอร์เซนทรอยด์ของผู้เชี่ยวชาญ $$ i $$ คะแนนนี้สะท้อนให้เห็นว่าโทเค็นสอดคล้องกับความพิเศษของผู้เชี่ยวชาญได้ดีเพียงใด

การทำให้เป็นมาตรฐานและการเลือก

หลังจากคำนวณคะแนนเหล่านี้ DeepSeek-V3 ทำให้เป็นมาตรฐานและเลือกผู้เชี่ยวชาญด้านบน-$$ K_R $$ ตามคะแนนปกติเหล่านี้ กระบวนการนี้ช่วยให้มั่นใจได้ว่าโทเค็นแต่ละตัวจะถูกส่งไปยังชุดย่อยของผู้เชี่ยวชาญที่เกี่ยวข้องกับมันมากที่สุดส่งเสริมการประมวลผลที่มีประสิทธิภาพและเป็นพิเศษ

ข้อกำหนดอคติสำหรับการโหลดบาลานซ์

เพื่อป้องกันการล่มสลายของการกำหนดเส้นทางและตรวจสอบให้แน่ใจว่ามีการกระจายโหลดที่สมดุลระหว่างผู้เชี่ยวชาญ Deepseek-V3 แนะนำเงื่อนไขอคติที่ปรับได้แบบไดนามิก คำอคติเหล่านี้จะถูกเพิ่มลงในคะแนนความสัมพันธ์ก่อนที่จะเลือกผู้เชี่ยวชาญด้านบน หากผู้เชี่ยวชาญเกินพิกัดคำอคติของมันจะลดลงและหากมีการใช้งานมากเกินไปคำอคติจะเพิ่มขึ้น กลไกนี้ช่วยให้มั่นใจได้ว่าภาระยังคงมีความสมดุลโดยไม่ต้องพึ่งพาฟังก์ชั่นการสูญเสียเสริมซึ่งสามารถส่งผลเสียต่อประสิทธิภาพของโมเดล [1] [3]

ประโยชน์ของ sigmoid มากกว่า softmax

การใช้ฟังก์ชั่น sigmoid แทน softmax ช่วยแยกความน่าจะเป็นในการเลือกของผู้เชี่ยวชาญที่แตกต่างกัน ใน Softmax ความน่าจะเป็นจะถูกทำให้เป็นมาตรฐานเพื่อรวมเป็นหนึ่งซึ่งสามารถนำไปสู่ความน่าจะเป็นที่รุนแรงเมื่อผู้เชี่ยวชาญหนึ่งคนได้รับการสนับสนุนอย่างมีนัยสำคัญ ในทางกลับกัน Sigmoid ช่วยให้การกำหนดความน่าจะเป็นที่ยืดหยุ่นและเป็นอิสระมากขึ้นลดโอกาสในการล่มสลายของการกำหนดเส้นทางและส่งเสริมการใช้ประโยชน์จากผู้เชี่ยวชาญที่สมดุลมากขึ้น [4]

โดยรวมแล้วฟังก์ชั่นการเปิดใช้งาน sigmoid ใน Deepseek-V3 ช่วยเพิ่มความสามารถของโมเดลในการกำหนดเส้นทางโทเค็นไปยังผู้เชี่ยวชาญที่เกี่ยวข้องอย่างมีประสิทธิภาพในขณะที่ยังคงรักษาภาระงานที่สมดุลซึ่งเป็นสิ่งสำคัญสำหรับการบรรลุประสิทธิภาพสูงและประสิทธิภาพการคำนวณในสถาปัตยกรรมผสมขนาดใหญ่ (MOE)

การอ้างอิง:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function

ฟังก์ชั่นการเปิดใช้งาน sigmoid มีบทบาทอย่างไรในกระบวนการกำหนดเส้นทางผู้เชี่ยวชาญของ Deepseek-V3