เพิ่มประสิทธิภาพการปรับใช้ DeepSeek-R1 บน AWS: คำแนะนำอินสแตนซ์และคู่มือการตั้งค่า

การใช้งาน DeepSeek-R1 อย่างมีประสิทธิภาพบน AWS ต้องการการเลือกประเภทอินสแตนซ์ที่เหมาะสมตามตัวแปรโมเดลเฉพาะและประสิทธิภาพที่ต้องการ นี่คือภาพรวมโดยละเอียดของอินสแตนซ์ AWS ที่แนะนำสำหรับรุ่น Deepseek-R1 ที่แตกต่างกัน:

Deepseek-R1 (แบบเต็ม)

โมเดล Deepseek-R1 เต็มรูปแบบที่มีพารามิเตอร์ 671 พันล้านพารามิเตอร์ต้องใช้ทรัพยากรการคำนวณจำนวนมาก เพื่อประสิทธิภาพที่ดีที่สุดขอแนะนำให้ตั้งค่า Multi-GPU เช่นการใช้ Nvidia A100 GPU อย่างไรก็ตาม AWS ไม่ได้เสนอ A100 GPU โดยตรงในอินสแตนซ์ EC2 มาตรฐาน แต่คุณสามารถพิจารณาใช้อินสแตนซ์เช่น `inf2.48xlarge` สำหรับความต้องการคอมพิวเตอร์ประสิทธิภาพสูงที่คล้ายคลึงกันแม้ว่าสิ่งเหล่านี้จะเหมาะสำหรับการเร่งความเร็วมากกว่าการฝึกอบรมแบบจำลองขนาดใหญ่เช่น Deepseek-R1 [4]

รุ่นกลั่น Deepseek-R1

สำหรับ Deepseek-R1 รุ่นกลั่นซึ่งมีประสิทธิภาพมากขึ้นและต้องการ VRAM น้อยกว่าสามารถใช้อินสแตนซ์ AWS ที่แตกต่างกันได้:

-Deepseek-R1-Distill-qwen-1.5b: รุ่นนี้สามารถทำงานได้อย่างมีประสิทธิภาพบนอินสแตนซ์ GPU เดียว แนะนำให้ใช้อินสแตนซ์ `ml.g5.xlarge` สำหรับการโฮสต์โมเดลนี้เนื่องจากตัวชี้วัดประสิทธิภาพ [3]

-DEEPSEEK-R1-DISTILL-QWEN-7B และ DEEPSEEK-R1-DISTILL-LLAMA-8B: รุ่นเหล่านี้ทำงานได้ดีในกรณีเช่น `ML.G6E.XLARGE` ซึ่งให้ความสมดุลที่ดีของพลังงานและค่าใช้จ่าย GPU `ml.g5.2xlarge` และ` ml.g5.xlarge` อินสแตนซ์เป็นตัวเลือกที่ใช้งานได้ [3]

-Deepseek-R1-Distill-qwen-14b: สำหรับรุ่นนี้จำเป็นต้องมีอินสแตนซ์ที่มี GPU ที่ทรงพลังกว่า อินสแตนซ์ `g4dn.xlarge` ซึ่งมีคุณสมบัติ Nvidia T4 GPUs อาจไม่เพียงพอเนื่องจากข้อ จำกัด ของ VRAM ให้พิจารณาใช้อินสแตนซ์ที่มี GPU ที่ทรงพลังกว่าเช่นในตระกูล `ML.G6` หรือเลือกใช้การตั้งค่าที่กำหนดเองด้วย GPU ระดับสูงกว่าถ้ามี [1] [2]

-DEEPSEEK-R1-DISTILL-QWEN-32B และ DEEPSEEK-R1-DISTILL-LLAMA-70B: รุ่นที่ใหญ่กว่าเหล่านี้ต้องการ GPU ที่ทรงพลังยิ่งขึ้น เพื่อประสิทธิภาพที่ดีที่สุดแนะนำให้ใช้อินสแตนซ์ที่มี GPU ระดับสูงเช่น NVIDIA RTX 4090 แม้ว่า GPU ที่เฉพาะเจาะจงดังกล่าวจะไม่สามารถใช้งานได้โดยตรงในอินสแตนซ์ AWS EC2 มาตรฐานโดยตรง อย่างไรก็ตามคุณสามารถใช้อินสแตนซ์เช่น `inf2.48xlarge` สำหรับงานการอนุมัติประสิทธิภาพสูง [4] [6]

การปรับใช้ที่ใช้ CPU

สำหรับงานการประมวลผลแบบแบทช์ที่เวลาแฝงไม่ใช่ปัจจัยสำคัญอินสแตนซ์ที่ใช้ AWS Graviton4 สามารถเสนอโซลูชันที่ประหยัดต้นทุนได้ อินสแตนซ์ `c8g.16xlarge` ที่มีจำนวนแกนสูงและแบนด์วิดท์หน่วยความจำเหมาะสำหรับรุ่นที่ใช้งานเช่น Deepseek-R1-Distill-llama-70b ในสภาพแวดล้อม CPU เท่านั้น [6]

โซลูชั่นที่ได้รับการจัดการอย่างเต็มที่

สำหรับผู้ใช้ที่ไม่ต้องการจัดการโครงสร้างพื้นฐาน Deepseek-R1 ยังมีให้บริการในรูปแบบที่ไม่มีเซิร์ฟเวอร์ที่ได้รับการจัดการอย่างสมบูรณ์ในอเมซอน ตัวเลือกนี้ช่วยให้คุณสามารถใช้ประโยชน์จากความสามารถของโมเดลโดยไม่ต้องกังวลเกี่ยวกับความซับซ้อนของโครงสร้างพื้นฐาน [9]

โดยสรุปการเลือกอินสแตนซ์ AWS สำหรับการใช้งาน DeepSeek-R1 อย่างมีประสิทธิภาพขึ้นอยู่กับตัวแปรโมเดลเฉพาะระดับประสิทธิภาพที่ต้องการและการเร่งความเร็วของ GPU นั้นเป็นสิ่งจำเป็นหรือไม่ สำหรับรุ่นกลั่นส่วนใหญ่แนะนำให้ใช้อินสแตนซ์ที่มี GPU ที่ทรงพลังในขณะที่อินสแตนซ์ที่ใช้ CPU สามารถเหมาะสำหรับงานการประมวลผลแบบแบทช์

การอ้างอิง:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2E48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-raviton4?lang=
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-managed-serverless-model-in-amazon-bedrock/

มีอินสแตนซ์ AWS ที่แนะนำสำหรับการใช้งาน Deepseek-R1 อย่างมีประสิทธิภาพหรือไม่

Deepseek-R1 (แบบเต็ม)

รุ่นกลั่น Deepseek-R1

การปรับใช้ที่ใช้ CPU

โซลูชั่นที่ได้รับการจัดการอย่างเต็มที่