การตั้งค่าการตรวจสอบพลังงานบนสถานี NVIDIA DGX A100 เกี่ยวข้องกับแนวทางปฏิบัติที่ดีที่สุดหลายประการเพื่อให้แน่ใจว่าการติดตามการใช้พลังงานที่แม่นยำและมีประสิทธิภาพ นี่คือขั้นตอนและข้อควรพิจารณาโดยละเอียด:
ทำความเข้าใจกับสถาปัตยกรรมพลังงานของระบบ
สถานี DGX A100 ได้รับการออกแบบด้วยความสามารถในการจัดการพลังงานที่แข็งแกร่งรวมถึงการตรวจสอบความเร็วพัดลมการใช้พลังงานและแรงดันไฟฟ้าของระบบ คุณสมบัติเหล่านี้สามารถเข้าถึงได้ผ่านอินเทอร์เฟซการจัดการ baseboard Management (BMC) ซึ่งให้ส่วนต่อประสานกับผู้ใช้บนเว็บสำหรับการตรวจสอบและจัดการส่วนประกอบระบบ [7]ใช้ BMC สำหรับการตรวจสอบพลังงาน
1. การเข้าถึง BMC: BMC ช่วยให้คุณตรวจสอบการใช้พลังงานและตัวชี้วัดระบบอื่น ๆ คุณสามารถเข้าถึงได้ผ่านเว็บอินเตอร์เฟสหรือผ่านคำสั่ง IPMI ตรวจสอบให้แน่ใจว่าคุณได้กำหนดค่าที่อยู่ IP แบบคงที่สำหรับ BMC เพื่ออำนวยความสะดวกในการเข้าถึงระยะไกล [3] [7]2. การกำหนดค่า IPMI: ใช้เครื่องมือเช่น `ipmitool` เพื่อกำหนดค่าและดึงข้อมูลการอ่านเซ็นเซอร์จาก BMC ซึ่งรวมถึงข้อมูลการใช้พลังงานซึ่งสามารถรวบรวมได้ในช่วงเวลาปกติ [7]
การใช้การรวบรวมข้อมูลอนุกรมเวลา
ในการตรวจสอบการใช้พลังงานเมื่อเวลาผ่านไปคุณต้องรวบรวมข้อมูลเป็นระยะ ๆ และจัดเก็บไว้ในฐานข้อมูลอนุกรมเวลา นี่คือวิธีที่คุณสามารถทำได้:1. ข้อมูลพลังงานการสุ่มตัวอย่าง: ใช้สคริปต์หรือเครื่องมือในการสุ่มตัวอย่างข้อมูลการใช้พลังงานจาก BMC หรืออินเทอร์เฟซการตรวจสอบอื่น ๆ ตามช่วงเวลาที่กำหนด (เช่นทุกนาที)
2. ฐานข้อมูลอนุกรมเวลา: ตั้งค่าฐานข้อมูลอนุกรมเวลาเช่น Prometheus หรือ InfluxDB เพื่อจัดเก็บข้อมูลที่รวบรวม ฐานข้อมูลเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับการจัดการข้อมูลที่ประทับเวลาจำนวนมากได้อย่างมีประสิทธิภาพ [1]
3. การสร้างภาพด้วย Grafana: ใช้ Grafana เพื่อสร้างแดชบอร์ดที่มองเห็นข้อมูลการใช้พลังงานเมื่อเวลาผ่านไป สิ่งนี้ช่วยให้การตรวจสอบและวิเคราะห์รูปแบบการใช้พลังงานได้ง่าย [1]
ข้อควรพิจารณาเพิ่มเติม
- การจัดการระยะไกล: ใช้ประโยชน์จากความสามารถในการจัดการระยะไกลของ BMC รวมถึงคุณสมบัติ Serial Over LAN (SOL) และ KVM เพื่อจัดการระบบโดยไม่ต้องเข้าถึงทางกายภาพ [7]- การจัดการแหล่งจ่ายไฟ: ตรวจสอบให้แน่ใจว่าสวิตช์แหล่งจ่ายไฟ Rocker ได้รับการจัดการอย่างเหมาะสมเพื่อหลีกเลี่ยงปัญหาพลังงานในระหว่างการดำเนินการ [8]
- ข้อควรระวังด้านความปลอดภัย: ใช้สายเคเบิลพลังงานที่ให้มาเสมอและหลีกเลี่ยงการใช้สายเคเบิลขยายบ้านเนื่องจากไม่มีการป้องกันการโอเวอร์โหลด [8]
การตรวจสอบส่วนประกอบของแต่ละบุคคล
ในขณะที่ BMC ให้ข้อมูลพลังงานระดับระบบคุณอาจต้องการตรวจสอบส่วนประกอบแต่ละตัวเช่น GPU เครื่องมือเช่น Nvidia DCGM สามารถช่วยจัดการและตรวจสอบประสิทธิภาพของ GPU และการใช้พลังงาน [1]การรวมศูนย์ข้อมูล
หากสถานี DGX A100 เป็นส่วนหนึ่งของการตั้งค่าศูนย์ข้อมูลขนาดใหญ่ขึ้นให้พิจารณาการรวมการตรวจสอบพลังงานเข้ากับโครงสร้างพื้นฐานของศูนย์ข้อมูล สิ่งนี้อาจเกี่ยวข้องกับการทำงานกับทีม Data Center เพื่อเข้าถึงข้อมูลพลังงานจากหน่วยกระจายพลังงานต้นน้ำ (PDUs) [1]การอ้างอิง:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.anualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html