Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon แนวทางปฏิบัติที่ดีที่สุดสำหรับการตั้งค่าการตรวจสอบพลังงานบนสถานี DGX A100 คืออะไร


แนวทางปฏิบัติที่ดีที่สุดสำหรับการตั้งค่าการตรวจสอบพลังงานบนสถานี DGX A100 คืออะไร


การตั้งค่าการตรวจสอบพลังงานบนสถานี NVIDIA DGX A100 เกี่ยวข้องกับแนวทางปฏิบัติที่ดีที่สุดหลายประการเพื่อให้แน่ใจว่าการติดตามการใช้พลังงานที่แม่นยำและมีประสิทธิภาพ นี่คือขั้นตอนและข้อควรพิจารณาโดยละเอียด:

ทำความเข้าใจกับสถาปัตยกรรมพลังงานของระบบ

สถานี DGX A100 ได้รับการออกแบบด้วยความสามารถในการจัดการพลังงานที่แข็งแกร่งรวมถึงการตรวจสอบความเร็วพัดลมการใช้พลังงานและแรงดันไฟฟ้าของระบบ คุณสมบัติเหล่านี้สามารถเข้าถึงได้ผ่านอินเทอร์เฟซการจัดการ baseboard Management (BMC) ซึ่งให้ส่วนต่อประสานกับผู้ใช้บนเว็บสำหรับการตรวจสอบและจัดการส่วนประกอบระบบ [7]

ใช้ BMC สำหรับการตรวจสอบพลังงาน

1. การเข้าถึง BMC: BMC ช่วยให้คุณตรวจสอบการใช้พลังงานและตัวชี้วัดระบบอื่น ๆ คุณสามารถเข้าถึงได้ผ่านเว็บอินเตอร์เฟสหรือผ่านคำสั่ง IPMI ตรวจสอบให้แน่ใจว่าคุณได้กำหนดค่าที่อยู่ IP แบบคงที่สำหรับ BMC เพื่ออำนวยความสะดวกในการเข้าถึงระยะไกล [3] [7]

2. การกำหนดค่า IPMI: ใช้เครื่องมือเช่น `ipmitool` เพื่อกำหนดค่าและดึงข้อมูลการอ่านเซ็นเซอร์จาก BMC ซึ่งรวมถึงข้อมูลการใช้พลังงานซึ่งสามารถรวบรวมได้ในช่วงเวลาปกติ [7]

การใช้การรวบรวมข้อมูลอนุกรมเวลา

ในการตรวจสอบการใช้พลังงานเมื่อเวลาผ่านไปคุณต้องรวบรวมข้อมูลเป็นระยะ ๆ และจัดเก็บไว้ในฐานข้อมูลอนุกรมเวลา นี่คือวิธีที่คุณสามารถทำได้:

1. ข้อมูลพลังงานการสุ่มตัวอย่าง: ใช้สคริปต์หรือเครื่องมือในการสุ่มตัวอย่างข้อมูลการใช้พลังงานจาก BMC หรืออินเทอร์เฟซการตรวจสอบอื่น ๆ ตามช่วงเวลาที่กำหนด (เช่นทุกนาที)

2. ฐานข้อมูลอนุกรมเวลา: ตั้งค่าฐานข้อมูลอนุกรมเวลาเช่น Prometheus หรือ InfluxDB เพื่อจัดเก็บข้อมูลที่รวบรวม ฐานข้อมูลเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับการจัดการข้อมูลที่ประทับเวลาจำนวนมากได้อย่างมีประสิทธิภาพ [1]

3. การสร้างภาพด้วย Grafana: ใช้ Grafana เพื่อสร้างแดชบอร์ดที่มองเห็นข้อมูลการใช้พลังงานเมื่อเวลาผ่านไป สิ่งนี้ช่วยให้การตรวจสอบและวิเคราะห์รูปแบบการใช้พลังงานได้ง่าย [1]

ข้อควรพิจารณาเพิ่มเติม

- การจัดการระยะไกล: ใช้ประโยชน์จากความสามารถในการจัดการระยะไกลของ BMC รวมถึงคุณสมบัติ Serial Over LAN (SOL) และ KVM เพื่อจัดการระบบโดยไม่ต้องเข้าถึงทางกายภาพ [7]
- การจัดการแหล่งจ่ายไฟ: ตรวจสอบให้แน่ใจว่าสวิตช์แหล่งจ่ายไฟ Rocker ได้รับการจัดการอย่างเหมาะสมเพื่อหลีกเลี่ยงปัญหาพลังงานในระหว่างการดำเนินการ [8]
- ข้อควรระวังด้านความปลอดภัย: ใช้สายเคเบิลพลังงานที่ให้มาเสมอและหลีกเลี่ยงการใช้สายเคเบิลขยายบ้านเนื่องจากไม่มีการป้องกันการโอเวอร์โหลด [8]

การตรวจสอบส่วนประกอบของแต่ละบุคคล

ในขณะที่ BMC ให้ข้อมูลพลังงานระดับระบบคุณอาจต้องการตรวจสอบส่วนประกอบแต่ละตัวเช่น GPU เครื่องมือเช่น Nvidia DCGM สามารถช่วยจัดการและตรวจสอบประสิทธิภาพของ GPU และการใช้พลังงาน [1]

การรวมศูนย์ข้อมูล

หากสถานี DGX A100 เป็นส่วนหนึ่งของการตั้งค่าศูนย์ข้อมูลขนาดใหญ่ขึ้นให้พิจารณาการรวมการตรวจสอบพลังงานเข้ากับโครงสร้างพื้นฐานของศูนย์ข้อมูล สิ่งนี้อาจเกี่ยวข้องกับการทำงานกับทีม Data Center เพื่อเข้าถึงข้อมูลพลังงานจากหน่วยกระจายพลังงานต้นน้ำ (PDUs) [1]

การอ้างอิง:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.anualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html