การเพิ่มประสิทธิภาพประสิทธิภาพของหน่วยความจำด้วยความสนใจแฝงหลายหัวใน DeepSeek-V3

กลไกความสนใจแฝงหลายหัว (MLA) กลไกการกลั่นใน Deepseek-V3 มีบทบาทสำคัญในการจัดการการเติบโตของหน่วยความจำโดยการลดข้อกำหนดของหน่วยความจำอย่างมีนัยสำคัญในระหว่างกระบวนการอนุมานของแบบจำลอง นี่คือวิธีการที่มีส่วนช่วยในประสิทธิภาพของหน่วยความจำ:

1. การฉายภาพระดับต่ำแบบไดนามิก: MLA ปรับการบีบอัดของเวกเตอร์คีย์/ค่าตามความยาวลำดับ สำหรับลำดับที่สั้นกว่าการบีบอัดน้อยจะถูกนำไปใช้เพื่อรักษาความซื่อสัตย์ในขณะที่สำหรับลำดับที่ยาวนานขึ้น (โทเค็นสูงสุด 128K) การบีบอัดที่ลึกกว่าจะใช้ในการจัดการการเติบโตของหน่วยความจำ วิธีการปรับตัวนี้ช่วยให้มั่นใจได้ว่าการใช้หน่วยความจำยังคงสามารถจัดการได้แม้จะมีลำดับอินพุตที่ยาวมาก [2] [3]

2. การบีบอัดแบบสอบถามแบบปรับตัว: ไม่เหมือนกับ Deepseek-V2 ซึ่งใช้มิติคงที่สำหรับการบีบอัดแบบสอบถาม Deepseek-V3 ใช้การปรับสเกลแบบปรับขนาดของการสืบค้นที่ระดับความลึกของชั้นที่แตกต่างกัน เลเยอร์ยุคแรกใช้การสืบค้นมิติที่สูงขึ้นเพื่อการแสดงออกที่ดีขึ้น กลยุทธ์นี้เพิ่มประสิทธิภาพการใช้หน่วยความจำโดยการปรับสมดุลการแสดงออกด้วยประสิทธิภาพ [2] [3]

3. การจัดการเชือกที่ดีขึ้น: Deepseek-V3 ขยายแนวคิดของการแยกคีย์ซึ่งถูกนำไปใช้บางส่วนใน V2 โดยการติดตาม "คีย์ที่ใช้ร่วมกันแบบแยกส่วน" แบบจำลองจะลดการดริฟท์เชิงตัวเลขในรุ่นยาวทำให้มั่นใจได้ว่าประสิทธิภาพที่เสถียรผ่านลำดับขยาย [2]

4. การจัดเก็บ KV ร่วม: ซึ่งแตกต่างจาก V2 ซึ่งเก็บคีย์และค่าที่ถูกเก็บไว้แยกกัน V3 จะรวมเข้ากับการแสดงที่ถูกบีบอัดที่ใช้ร่วมกัน สิ่งนี้จะช่วยลดทราฟฟิกหน่วยความจำในระหว่างการอนุมานหลายโหนดเพิ่มประสิทธิภาพของหน่วยความจำ [2]

5. แคชแบบปรับเลเยอร์ที่ชาญฉลาด: แทนที่จะแคชโทเค็นที่ผ่านมาทั้งหมดสำหรับทุกเลเยอร์ V3 ลูกพรุนรายการ KV ที่เก่ากว่าที่ชั้นลึก สิ่งนี้จะช่วยรักษาการใช้งานหน่วยความจำภายในขีด จำกัด ที่จัดการได้เมื่อจัดการกับหน้าต่างบริบทขนาดใหญ่ [2]

ด้วยการใช้การปรับแต่งเหล่านี้ MLA จะช่วยลดรอยเท้าหน่วยความจำของ Deepseek-V3 ได้อย่างมีนัยสำคัญทำให้สามารถจัดการกับลำดับที่ยาวนานได้อย่างมีประสิทธิภาพโดยไม่ลดทอนประสิทธิภาพ นี่คือความสำเร็จโดยการบีบอัดคู่คีย์-ค่าลงในเวกเตอร์แฝงซึ่งช่วยลดปริมาณข้อมูลที่ต้องจัดเก็บและประมวลผลดังนั้นจึงเร่งการอนุมานและเพิ่มขีดความสามารถของแอปพลิเคชันแบบเรียลไทม์ [3] [5] [8]

การอ้างอิง:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-poing-crazy-how-deepseek
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-hieve-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-pled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-deepseek-v3-you-hould-know/

MLA ที่กลั่นมีบทบาทอย่างไรในการจัดการการเติบโตของหน่วยความจำใน Deepseek-V3