Deepseek การเริ่มต้น AI จีนที่กำลังเติบโตอย่างรวดเร็วมีกลยุทธ์หลายอย่างในการจัดการคำขอโทเค็นขนาดใหญ่อย่างมีประสิทธิภาพโดยเฉพาะอย่างยิ่งผ่านรุ่นล่าสุด DeepSeek-V3 โมเดลนี้ใช้สถาปัตยกรรมผสมของ Experts (MOE) ซึ่งช่วยให้สามารถเลือกเปิดใช้งานชุดย่อยของพารามิเตอร์สำหรับแต่ละโทเค็นที่ประมวลผล โดยเฉพาะอย่างยิ่ง Deepseek-V3 มีพารามิเตอร์ทั้งหมด 671 พันล้านพารามิเตอร์ แต่มีเพียง 37 พันล้านเท่านั้นที่เปิดใช้งานสำหรับแต่ละโทเค็นในระหว่างการอนุมาน การออกแบบนี้ช่วยเพิ่มประสิทธิภาพการคำนวณอย่างมีนัยสำคัญเมื่อเทียบกับแบบจำลองความหนาแน่นแบบดั้งเดิมซึ่งพารามิเตอร์ทั้งหมดมีส่วนร่วมสำหรับทุกคำขอ [1] [4]
เพื่อเพิ่มประสิทธิภาพการทำงานต่อไป Deepseek-V3 ได้ใช้กลยุทธ์การปรับสมดุลโหลดที่มีประสิทธิภาพตลอดกระบวนการฝึกอบรมและการอนุมาน วิธีการนี้ช่วยให้มั่นใจได้ว่าไม่มีโทเค็นถูกทิ้งในช่วงใดเฟส โมเดลรักษาสมดุลโหลดที่ดีโดยใช้กลไกการกำหนดเส้นทางที่ จำกัด ซึ่ง จำกัด ต้นทุนการสื่อสารและช่วยให้การคำนวณการสื่อสารเกือบเต็มรูปแบบ เป็นผลให้ Deepseek-V3 สามารถจัดการคำขอโทเค็นได้ในปริมาณสูงโดยไม่ต้องเสียสละประสิทธิภาพหรือความน่าเชื่อถือ [2] [4]
ในแง่ของการฝึกอบรม Deepseek-V3 ได้รับการฝึกอบรมล่วงหน้าในชุดข้อมูลที่กว้างขวางซึ่งประกอบด้วยโทเค็น 14.8 ล้านล้านโทตามด้วยขั้นตอนของการปรับแต่งการปรับแต่งและการเรียนรู้การเสริมแรงเพื่อปรับแต่งความสามารถ กระบวนการฝึกอบรมได้รับการออกแบบให้มีเสถียรภาพและมีประสิทธิภาพเสร็จสมบูรณ์ในเวลาน้อยกว่าสองเดือนโดยมีค่าใช้จ่ายทั้งหมดประมาณ 5.576 ล้านดอลลาร์ในชั่วโมง GPU [1] [2] การใช้ทรัพยากรที่มีประสิทธิภาพนี้ช่วยให้ Deepseek สามารถปรับขนาดได้อย่างมีประสิทธิภาพในขณะที่จัดการคำขอโทเค็นขนาดใหญ่ทั่วทั้งบริการ
โดยรวมแล้วสถาปัตยกรรมที่เป็นนวัตกรรมและแนวทางเชิงกลยุทธ์ของ Deepseek ช่วยให้สามารถจัดการกับการร้องขอโทเค็นได้อย่างมีประสิทธิภาพทำให้เป็นผู้เล่นที่แข่งขันได้ในภูมิทัศน์ AI
การอ้างอิง:
[1] https://thehackernews.com/2025/01/top-rated-chinese-ai-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-openai-rival-deepseek-limits-signups-after-large-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explained-averything-you-need-to-know
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-large-scale-cyberattack-says-its-it-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-need-to-know-his-new-llm-in-one-place