การตรวจสอบและประเมินประสิทธิภาพ DeepSeek-R1 ในอินสแตนซ์ AWS GPU

การตรวจสอบและประเมินประสิทธิภาพของ Deepseek-R1 ในอินสแตนซ์ AWS GPU นั้นเกี่ยวข้องกับขั้นตอนและเครื่องมือหลายขั้นตอน นี่คือคำแนะนำโดยละเอียดเกี่ยวกับวิธีการทำอย่างมีประสิทธิภาพ:

เครื่องมือตรวจสอบและตัวชี้วัด

Amazon CloudWatch

Amazon CloudWatch เป็นเครื่องมือสำคัญสำหรับการตรวจสอบทรัพยากร AWS รวมถึงอินสแตนซ์ GPU มันรวบรวมและประมวลผลข้อมูลดิบเป็นตัวชี้วัดที่อ่านได้ใกล้กับตัวชี้วัดแบบเรียลไทม์ สำหรับอินสแตนซ์ GPU คุณสามารถตรวจสอบตัวชี้วัดเช่น:
- การใช้ประโยชน์จาก GPU: เปอร์เซ็นต์ของ GPU ที่จัดสรรในปัจจุบันมีการใช้งาน
- Gpumemoryutilization: เปอร์เซ็นต์ของหน่วยความจำ GPU ทั้งหมดที่ใช้งาน
- Cpuutilization: เปอร์เซ็นต์ของหน่วยคำนวณ EC2 ที่จัดสรรที่ใช้งานอยู่
- หน่วยความจำ: เปอร์เซ็นต์ของหน่วยความจำที่ใช้ในช่วงตัวอย่าง

ในการเปิดใช้งานตัวชี้วัดการใช้ประโยชน์จาก GPU คุณจะต้องติดตั้ง Agent CloudWatch ในอินสแตนซ์ของคุณและกำหนดค่าเพื่อรวบรวมตัวชี้วัด Nvidia GPU [2] [8]

ตัวชี้วัด Nvidia

นอกเหนือจากตัวชี้วัด CloudWatch แล้วคุณสามารถใช้คำสั่ง `Nvidia-Smi` เพื่อตรวจสอบประสิทธิภาพของ GPU แบบเรียลไทม์ คำสั่งนี้ให้ข้อมูลโดยละเอียดเกี่ยวกับการใช้ GPU การใช้หน่วยความจำและอุณหภูมิ [5]

ตัวชี้วัดการประเมินประสิทธิภาพสำหรับ Deepseek-R1

เมื่อประเมินประสิทธิภาพของโมเดล Deepseek-R1 ให้ความสนใจกับตัวชี้วัดต่อไปนี้:
-เวลาแฝงแบบ end-to-end: เวลาระหว่างการส่งคำขอและรับการตอบกลับ
- ปริมาณงาน (โทเค็นต่อวินาที): จำนวนโทเค็นที่ประมวลผลต่อวินาที
- เวลาที่จะโทเค็นแรก: เวลาที่ใช้ในการสร้างโทเค็นแรกในการตอบสนอง
- เวลาแฝงระหว่างอาสาสมัคร: เวลาระหว่างการสร้างโทเค็นแต่ละครั้งในการตอบสนอง [1] [4]

สถานการณ์สำหรับการทดสอบ

เพื่อประเมินประสิทธิภาพ DeepSeek-R1 อย่างมีประสิทธิภาพให้พิจารณาทดสอบสถานการณ์ที่แตกต่างกัน:
- ความยาวโทเค็นอินพุต: ทดสอบด้วยสั้น (เช่น 512 โทเค็น) และสื่อ (เช่นโทเค็น 3072) ความยาวอินพุตเพื่อประเมินว่าโมเดลจัดการขนาดอินพุตที่แตกต่างกันอย่างไร
- ระดับการเกิดขึ้นพร้อมกัน: ประเมินประสิทธิภาพภายใต้ระดับการทำงานร่วมกันที่แตกต่างกัน (เช่น 1, 10) เพื่อประเมินความยืดหยุ่น
- การกำหนดค่าฮาร์ดแวร์: ใช้ประเภทอินสแตนซ์ GPU ต่างๆ (เช่น P4d, G5, G6) ด้วยจำนวน GPU ที่แตกต่างกันเพื่อค้นหาการกำหนดค่าที่ดีที่สุดสำหรับเวิร์กโหลดของคุณ [1] [4]

แนวทางปฏิบัติที่ดีที่สุดสำหรับการติดตามและประเมินผล

- ใช้ Amazon Sagemaker: ปรับใช้รุ่น Deepseek-R1 โดยใช้ Sagemaker เพื่อใช้ประโยชน์จากโครงสร้างพื้นฐานที่ได้รับการจัดการและความสามารถในการตรวจสอบประสิทธิภาพ
- การทดสอบที่กำหนดเอง: ทำการทดสอบที่กำหนดเองด้วยชุดข้อมูลเฉพาะของคุณและใช้กรณีการใช้งานเพื่อให้แน่ใจว่าผลลัพธ์นั้นเกี่ยวข้องกับแอปพลิเคชันของคุณ
- การตรวจสอบอย่างต่อเนื่อง: ตรวจสอบตัวชี้วัดประสิทธิภาพเป็นประจำเพื่อระบุคอขวดและเพิ่มประสิทธิภาพการใช้ทรัพยากร [4] [7]

โดยทำตามขั้นตอนเหล่านี้และใช้เครื่องมือที่เหมาะสมคุณสามารถตรวจสอบและประเมินประสิทธิภาพของ Deepseek-R1 ในอินสแตนซ์ AWS GPU ได้อย่างมีประสิทธิภาพ

การอ้างอิง:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-performance-use-cases-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distilled/deepseek-r1-distilled-performance-evaluation-report.ipynb
[7] https://virtualizationReview.com/articles/2025/03/11/aws-first-cloud-giant-to-offer-deepseek-r1-as-as-managed-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-fuly-managed-amazon-bedrock/