การเพิ่มประสิทธิภาพประสิทธิภาพของ Deepseek-R1 บน AWS นั้นเกี่ยวข้องกับการตั้งค่าเครือข่ายและการกำหนดค่าหลายอย่าง นี่คือภาพรวมโดยละเอียดของวิธีการปรับปรุงประสิทธิภาพ:
1. การกำหนดค่าอินสแตนซ์ EC2 **
- ประเภทอินสแตนซ์: การเลือกประเภทอินสแตนซ์ที่มีพลังงาน GPU เพียงพอเช่น `g4dn.xlarge` เป็นสิ่งสำคัญสำหรับการใช้รุ่น Deepseek-R1 อย่างมีประสิทธิภาพ ประเภทอินสแตนซ์นี้รองรับไดรเวอร์ NVIDIA GRID ซึ่งจำเป็นสำหรับการเร่งความเร็ว GPU [1]- การตั้งค่าเครือข่าย: ใช้การตั้งค่า VPC เริ่มต้นและเลือกโซนความพร้อมใช้งานที่มีการปรับใช้อินสแตนซ์ EC2 ของคุณ สิ่งนี้ทำให้มั่นใจได้ว่าอินสแตนซ์ของคุณเชื่อมต่อและเข้าถึงได้เป็นอย่างดีภายในเครือข่ายของคุณ [1]
2. กลุ่มความปลอดภัย **
- กำหนดค่ากลุ่มความปลอดภัยใหม่ที่มีกฎขาเข้าเฉพาะ:- ทราฟฟิก HTTP: อนุญาตการรับส่งข้อมูล HTTP จากช่วง IP ที่เชื่อถือได้ (เช่น "IP ของฉัน") เพื่อเปิดใช้งานการเข้าถึงเว็บไปยังรุ่น
- ทราฟฟิก TCP บนพอร์ต 3000: อนุญาตการรับส่งข้อมูล TCP จากช่วง VPC CIDR เพื่ออำนวยความสะดวกในการสื่อสารกับแอปพลิเคชันโหลดบาลานซ์
- ทราฟฟิก HTTPS: อนุญาตการรับส่งข้อมูล HTTPS จากช่วง VPC CIDR เพื่อการสื่อสารที่ปลอดภัย [1]
3. แอปพลิเคชันโหลดบัลแลนเซอร์ (ALB) **
-Scheme: ตั้งค่า ALB ที่หันหน้าเข้าหาอินเทอร์เน็ตเพื่อเปิดเผยรุ่น Deepseek-R1 ของคุณไปสู่การรับส่งข้อมูลภายนอก- ประเภทที่อยู่ IP Load Balancer: ใช้ IPv4 เพื่อความเรียบง่ายและความเข้ากันได้
- การตั้งค่าเครือข่าย: เลือกการตั้งค่า VPC เริ่มต้นและโซนความพร้อมใช้งานเดียวกันกับอินสแตนซ์ EC2 ของคุณ
- กลุ่มความปลอดภัย: ใช้กลุ่มความปลอดภัยที่สร้างขึ้นระหว่างการกำหนดค่า EC2 เพื่อให้แน่ใจว่าการควบคุมการเข้าถึงที่สอดคล้องกัน [1]
4. การกำหนดค่ากลุ่มเป้าหมาย **
- ประเภทเป้าหมาย: เลือก "อินสแตนซ์" เป็นประเภทเป้าหมาย- พอร์ต: ใช้พอร์ต 3000 เพื่อส่งต่อปริมาณการใช้งานไปยังอินสแตนซ์ EC2 ที่ใช้รุ่น DeepSeek-R1
- ชื่อกลุ่มเป้าหมาย: ตั้งชื่อกลุ่มเป้าหมาย (เช่น "Deepseek-TG") เพื่อการระบุง่าย [1]
5. Amazon Sagemaker สำหรับประสิทธิภาพที่เพิ่มขึ้น **
-การปรับใช้แบบจำลอง: พิจารณาการปรับใช้รุ่น Deepseek-R1 โดยใช้ Amazon Sagemaker ซึ่งมีคุณสมบัติเช่นการปรับขนาดอัตโนมัติและการปรับสมดุลโหลดแบบยืดหยุ่น สิ่งนี้สามารถปรับปรุงการตอบสนองและความยืดหยุ่น [3] [4]- Bucket ส่วนตัว S3: เก็บน้ำหนักโมเดลในถัง S3 ส่วนตัวเพื่อลดเวลาแฝงและเพิ่มความปลอดภัยโดยเก็บข้อมูลรุ่นไว้ในบัญชี AWS ของคุณ [3]
6. การเพิ่มประสิทธิภาพแนวทางปฏิบัติที่ดีที่สุด **
- การเพิ่มประสิทธิภาพที่รวดเร็ว: ใช้เทคนิคเช่นการเพิ่มประสิทธิภาพที่รวดเร็วบนพื้นหิน Amazon เพื่อเพิ่มความสามารถในการใช้เหตุผลของรุ่น Deepseek-R1 [7]- การเลือกภูมิภาค: เลือกภูมิภาค AWS ที่อยู่ใกล้กับผู้ใช้ของคุณมากที่สุดเพื่อลดเวลาแฝงและเพิ่มประสิทธิภาพค่าใช้จ่าย [6]
ด้วยการใช้การตั้งค่าเครือข่ายและการกำหนดค่าเหล่านี้คุณสามารถเพิ่มประสิทธิภาพประสิทธิภาพของ Deepseek-R1 บน AWS เพื่อให้มั่นใจว่าการปรับใช้แบบจำลองที่มีประสิทธิภาพปรับขนาดได้และปลอดภัย
การอ้างอิง:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://northflank.com/blog/self-host-deepseek-r1-on-aws-gcp-azure-and-k8s-in-three-easy-steps
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://repost.aws/questions/quzc1_jmmesbmpauozqh5jca/guidance-on-aws-deepseek-ai-pricing-and-deplation-options
[6] https://crossasyst.com/blog/deepseek-r1-on-aws-bedrock/
[7] https://aws.amazon.com/blogs/machine-learning/optimize-reasoning-models-like-deepseek-with-prompt-optimization-on-amazon-bedrock/
[8] https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-on-aws/