Deepseek ใช้กลยุทธ์หลายอย่างเพื่อป้องกันไม่ให้โทเค็นลดลงในระหว่างการฝึกอบรมโดยเฉพาะอย่างยิ่งในสถาปัตยกรรมผสม (MOE) นี่คือมาตรการสำคัญ:
1. กลยุทธ์การทิ้งโทเค็น: Deepseek ใช้วิธีการลดลงของโทเค็นที่ใช้ความน่าจะเป็นตามความน่าจะเป็นคล้ายกับโมเดล MOE ทั่วไป ซึ่งหมายความว่าโทเค็นจะลดลงตามคะแนนของพวกเขาเพื่อให้แน่ใจว่ามีเพียงโทเค็นที่สำคัญน้อยที่สุดเท่านั้นที่ถูกทิ้งเมื่อโทเค็นนับเกินขีดความสามารถที่แน่นอน ความจุถูกคำนวณแตกต่างกันไปขึ้นอยู่กับว่าการโฟกัสอยู่ที่มิติของผู้เชี่ยวชาญหรืออุปกรณ์ซึ่งช่วยจัดการวิธีการประมวลผลโทเค็นโดยผู้เชี่ยวชาญหรืออุปกรณ์ที่แตกต่างกันอย่างมีประสิทธิภาพ [1]
2. โทเค็นระดับอุปกรณ์ลดลง: กลยุทธ์ส่วนใหญ่ทำงานในระดับอุปกรณ์ที่มีการจัดเรียงคะแนนผู้เชี่ยวชาญทั้งหมดและโทเค็นที่มีความน่าจะเป็นต่ำที่สุดจะลดลง สิ่งนี้ทำให้มั่นใจได้ว่าอุปกรณ์แต่ละตัวสามารถจัดการโหลดได้โดยไม่ต้องมีผู้เชี่ยวชาญคนใดคนหนึ่งในขณะที่ยังคงรักษาประสิทธิภาพประสิทธิภาพโดยรวม [1]
3. รับประกันการเก็บรักษาโทเค็น: Deepseek ได้ใช้กลยุทธ์เฉพาะเพื่อให้แน่ใจว่าประมาณ 10% ของโทเค็นจากลำดับการฝึกอบรมจะไม่ถูกทิ้ง นี่เป็นสิ่งสำคัญสำหรับการรักษาความสมบูรณ์ของข้อมูลการฝึกอบรมและทำให้มั่นใจได้ว่าข้อมูลสำคัญจะได้รับการเก็บรักษาไว้ตลอดกระบวนการฝึกอบรม [2] [6]
4. การปรับสมดุลโหลด: ในเวอร์ชันล่าสุด Deepseek-V3 ซึ่งเป็นกลยุทธ์การปรับสมดุลโหลดที่มีประสิทธิภาพซึ่งไม่จำเป็นต้องใช้โทเค็นที่ลดลงทั้งหมดในระหว่างการฝึกอบรม โดยการปรับโหลดของผู้เชี่ยวชาญแบบไดนามิกและการใช้วัตถุประสงค์การทำนายแบบหลายครั้ง Deepseek-V3 ยังคงมีการกระจายโทเค็นที่สมดุลระหว่างผู้เชี่ยวชาญซึ่งจะป้องกันการสูญเสียข้อมูลระหว่างการฝึกอบรม [2]
มาตรการเหล่านี้สะท้อนให้เห็นถึงความมุ่งมั่นของ Deepseek ในการเพิ่มประสิทธิภาพกระบวนการฝึกอบรมในขณะที่ลดการสูญเสียข้อมูลและเพิ่มประสิทธิภาพการคำนวณสูงสุด
การอ้างอิง:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-poing-down-dake-deekseek-tokens-mafect-thous-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-poing-down-dake-deeek-reeeek-tokens-affect-thousands-of-traders/
[6] https://arxiv.org/html/2405.04434V5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716