Deepseek-V3: การเพิ่มการกำหนดเส้นทางผู้เชี่ยวชาญด้วยฟังก์ชั่น sigmoid ในส่วนผสมของสถาปัตยกรรมผู้เชี่ยวชาญ

ใน Deepseek-V3 ฟังก์ชั่น sigmoid มีบทบาทสำคัญในการคำนวณคะแนนความสัมพันธ์สำหรับการกำหนดเส้นทางผู้เชี่ยวชาญในส่วนผสมของสถาปัตยกรรมผู้เชี่ยวชาญ (MOE) ซึ่งแตกต่างจากโมเดล MOE แบบดั้งเดิมที่มักใช้ฟังก์ชั่น SoftMax เพื่อทำให้คะแนนความสัมพันธ์ปกติ DEEPSEEK-V3 ใช้ฟังก์ชัน sigmoid การเปลี่ยนแปลงนี้ส่งผลกระทบต่อโมเดลในหลายวิธี:

1. การทำให้เป็นมาตรฐานและการกำหนดเส้นทาง: ฟังก์ชั่น sigmoid ใช้ในการคำนวณคะแนนความสัมพันธ์ซึ่งจะถูกทำให้เป็นมาตรฐานในทุกคะแนนความสัมพันธ์ที่เลือกทั้งหมดเพื่อสร้างค่า gating วิธีการนี้ช่วยให้กลไกการกำหนดเส้นทางที่ยืดหยุ่นและเหมาะสมยิ่งขึ้นเมื่อเทียบกับ SoftMax ซึ่งบางครั้งอาจนำไปสู่การล่มสลายของการกำหนดเส้นทางที่ผู้เชี่ยวชาญบางคนได้รับความนิยมมากเกินไป [4] [7]

2. การหลีกเลี่ยงการล่มสลายของการกำหนดเส้นทาง: การล่มสลายการกำหนดเส้นทางเกิดขึ้นเมื่อโทเค็นส่วนใหญ่ถูกส่งไปยังผู้เชี่ยวชาญชุดย่อยขนาดเล็กนำไปสู่การใช้ทรัพยากรการคำนวณที่ไม่มีประสิทธิภาพ Deepseek-V3 ช่วยลดสิ่งนี้โดยใช้ sigmoid gating และแนะนำเงื่อนไขอคติที่ปรับแบบไดนามิกในระหว่างการฝึกอบรม ข้อกำหนดอคติเหล่านี้ช่วยสร้างความสมดุลให้กับการโหลดในผู้เชี่ยวชาญโดยไม่ต้องพึ่งพาการสูญเสียเสริมที่สามารถส่งผลเสียต่อประสิทธิภาพของโมเดล [4] [9]

3. คำอคติและการปรับแบบไดนามิก: โมเดลรวมเงื่อนไขอคติสำหรับผู้เชี่ยวชาญแต่ละคนซึ่งจะถูกเพิ่มเข้าไปในคะแนนความสัมพันธ์ก่อนที่จะเลือกผู้เชี่ยวชาญด้านบน K-K คำอคติเหล่านี้ได้รับการปรับแบบไดนามิกตามภาระของผู้เชี่ยวชาญแต่ละคน หากผู้เชี่ยวชาญเกินพิกัดคำอคติของมันจะลดลงและหากมีการใช้งานมากเกินไปคำอคติจะเพิ่มขึ้น สิ่งนี้ทำให้มั่นใจได้ว่าการกระจายโทเค็นที่สมดุลข้ามผู้เชี่ยวชาญโดยไม่จำเป็นต้องสูญเสียเพิ่มเติม [4] [8]

4. การสูญเสียเสริมตามลำดับที่ชาญฉลาด: แม้ว่า Deepseek-V3 จะหลีกเลี่ยงการสูญเสียเสริม แต่ก็รวมถึงการสูญเสียสมดุลระหว่างลำดับเล็กน้อยเพื่อป้องกันไม่ให้กรณีที่รุนแรง การสูญเสียครั้งนี้ทำหน้าที่ป้องกันโดยไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อพลวัตการฝึกอบรมโดยรวม [4]

5. การกำหนดเส้นทางแบบ จำกัด โหนด: เพื่อควบคุมค่าใช้จ่ายในการสื่อสาร Deepseek-V3 ใช้การกำหนดเส้นทางที่ จำกัด โหนดซึ่งแต่ละโทเค็นจะถูกส่งไปที่โหนด M ส่วนใหญ่ตามคะแนนความสัมพันธ์สูงสุด กลยุทธ์นี้ช่วยให้การคำนวณการคำนวณแบบใกล้ชิดทับซ้อนกันระหว่างการฝึกอบรมเพิ่มประสิทธิภาพ [4]

โดยรวมแล้วการใช้ฟังก์ชั่น sigmoid ใน Deepseek-V3 ช่วยให้กลไกการกำหนดเส้นทางที่ยืดหยุ่นและมีประสิทธิภาพมากขึ้นทำให้เกิดความสามารถของแบบจำลองในการปรับสมดุลการใช้งานของผู้เชี่ยวชาญโดยไม่ต้องเสียสละประสิทธิภาพ

การอ้างอิง:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplelarning-neuralnetworks-ctivity-7291477904792657920-Rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-etection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-loss-loss-load-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details

ฟังก์ชั่น sigmoid ส่งผลกระทบต่อการคำนวณคะแนนความสัมพันธ์ใน Deepseek-V3 อย่างไร