เทคโนโลยี Multi-Instance GPU (MIG) ในสถานี NVIDIA DGX มีประโยชน์หลายประการโดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่ผู้ใช้หรือทีมหลายคนจำเป็นต้องแบ่งปันทรัพยากร GPU อย่างมีประสิทธิภาพ
1. การใช้ทรัพยากรที่ได้รับการปรับปรุง: MIG อนุญาตให้ GPU เดี่ยวแบ่งพาร์ติชันเป็นหลายอินสแตนซ์แต่ละรายการมีทรัพยากรเฉพาะเช่นหน่วยความจำแคชและการคำนวณแกน สิ่งนี้จะช่วยเพิ่มการใช้ GPU โดยการเปิดใช้งานหลายเวิร์กโหลดเพื่อทำงานพร้อมกันใน GPU เดียวซึ่งเป็นประโยชน์อย่างยิ่งสำหรับงานที่ไม่ได้ทำให้ความสามารถในการคำนวณของ GPU อิ่มตัวอย่างเต็มที่ [1] [3] [9]
2. รับประกันคุณภาพของการบริการ (QoS): แต่ละอินสแตนซ์ MIG ทำงานอย่างอิสระเพื่อให้มั่นใจว่าปริมาณงานที่คาดการณ์ได้และเวลาแฝง ซึ่งหมายความว่าแม้ว่างานหลายงานจะทำงานบน GPU เดียวกันแต่ละงานจะมีประสิทธิภาพที่สอดคล้องกันโดยไม่มีการรบกวนจากงานอื่น ๆ ซึ่งเป็นสิ่งสำคัญสำหรับแอปพลิเคชันที่ต้องใช้เวลาแฝงต่ำและความน่าเชื่อถือสูง [3] [9]
3. การทำงานร่วมกันและความยืดหยุ่นที่ได้รับการปรับปรุง: MIG รองรับตัวเลือกการปรับใช้หลายตัวเลือกรวมถึงโลหะเปลือยคอนเทนเนอร์และเครื่องเสมือน ความยืดหยุ่นนี้ช่วยให้ทีมสามารถแบ่งปันทรัพยากร GPU ได้อย่างมีประสิทธิภาพทำให้เหมาะสำหรับสภาพแวดล้อมการทำงานร่วมกันเช่นห้องปฏิบัติการวิจัยและทีมวิทยาศาสตร์ข้อมูล [1] [3] [7]
4. ประสิทธิภาพด้านต้นทุน: การอนุญาตให้ผู้ใช้หลายคนแบ่งปัน GPU เดียว MIG สามารถลดความจำเป็นในการใช้ฮาร์ดแวร์เพิ่มเติมทำให้เป็นโซลูชันที่ประหยัดต้นทุนเมื่อเทียบกับการซื้อ GPUs แยกต่างหากสำหรับผู้ใช้แต่ละคนหรือการเช่าอินสแตนซ์ GPU คลาวด์ [1] [4]
5. ปริมาณงานที่เพิ่มขึ้นสำหรับเวิร์กโหลดการอนุมาน: MIG สามารถเพิ่มปริมาณงานการอนุมานได้อย่างมีนัยสำคัญโดยอนุญาตให้โมเดลขนาดเล็กหลายรุ่นทำงานแบบขนานบน GPU เดียว สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับแอพพลิเคชั่นที่เกี่ยวข้องกับโมเดลขนาดเล็กที่มีความล่าช้าต่ำซึ่งไม่ต้องการประสิทธิภาพเต็มรูปแบบของ GPU [2] [7]
6. ความปลอดภัยและความโดดเดี่ยว: MIG ให้ความโดดเดี่ยวระหว่างอินสแตนซ์อย่างเข้มงวดเพื่อให้มั่นใจว่าภาระงานของผู้ใช้แต่ละคนทำงานได้อย่างปลอดภัยโดยไม่ส่งผลกระทบต่อผู้ใช้รายอื่น สิ่งนี้มีความสำคัญอย่างยิ่งในสภาพแวดล้อมที่มีผู้เช่าหลายคนซึ่งความปลอดภัยของข้อมูลเป็นสิ่งสำคัญยิ่ง [3] [9]
7. ความสามารถในการปรับขนาดและความเก่งกาจ: สถานี DGX A100 พร้อมรองรับ MIG สามารถกำหนดค่าให้จัดการกับเวิร์กโหลดที่หลากหลายพร้อมกัน ตัวอย่างเช่น GPU บางตัวสามารถอุทิศให้กับการฝึกอบรม AI ในขณะที่คนอื่นใช้สำหรับการคำนวณประสิทธิภาพสูงหรืองานอนุมานทั้งหมดทำงานพร้อมกันโดยไม่มีการลดลงของประสิทธิภาพ [2] [7]
โดยรวมแล้ว MIG ในสถานี DGX A100 ช่วยเพิ่มประสิทธิภาพการผลิตประสิทธิภาพและความยืดหยุ่นในการจัดสรรทรัพยากร GPU ทำให้เป็นโซลูชันที่เหมาะสำหรับสภาพแวดล้อมที่ต้องใช้คอมพิวเตอร์ประสิทธิภาพสูงและพื้นที่ทำงานร่วมกัน
การอ้างอิง:
[1] https://www.toolify.ai/ai-news/experience-the-power-of-nvidia-dgx-station-a100-971252
[2] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[3] https://docs.nvidia.com/datacenter/tesla/mig-user-guide/
[4] https://www.globenewswire.com/news-release/2020/11/16/2127366/0/en/nvidia-dgx-station-a100--reresearchers-ai-data-center-in-box.html
[5] http://nvidianews.nvidia.com/news/nvidia-dgx-station-a100-fers-researchers-ai-data-center-in-a-box
[6] https://www.megware.com/fileadmin/user_upload/landingpage%20nvidia/nvidia-ampere-architecture-whitepaper.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://www.fujitsu.com/au/products/computing/servers/supercomputer/gpu-pomputing/nvidia-dgx-systems/dgx-station/
[9] https://www.nvidia.com/en-us/technologies/multi-instance-gpu/
[10] https://aws.amazon.com/blogs/containers/maximizing-gpu-utilization-with-nvidias-multi-instance-gpu-mig-on-amazon-eks-running-more-pods-per-gpu