ในการตั้งค่าหน่วยกระจายพลังงานอัจฉริยะ (PDU) สำหรับการตรวจสอบพลังงานบนสถานี NVIDIA DGX A100 ทำตามขั้นตอนโดยละเอียดเหล่านี้:
1. การติดตั้ง PDU อัจฉริยะ **
- ตัวเลือกการติดตั้ง: PDU อัจฉริยะสามารถติดตั้งได้ทั้งในแนวตั้งหรือแนวนอนในชั้นวาง สำหรับการติดตั้งแนวนอนให้เลือกจุดยึดตัวยึดที่เหมาะสมเพื่อให้แน่ใจว่ามีความลึกที่เหมาะสมภายในชั้นวาง แนบ l-brackets ด้วยสกรูและติดตั้งตู้เข้ากับช่องแร็คช่วยให้สามารถปรับตัวได้ในแนวนอน [3]- การติดตั้งแนวตั้ง: ใช้ชุดติดตั้งปุ่มที่ให้มาพร้อมกับ Smart PDU แจกจ่ายปุ่มในแนวตั้งและแนบเข้ากับ PDU ตามต้องการ ตรวจสอบให้แน่ใจว่ามีการกวาดล้างเพียงพอที่ด้านบนสำหรับปุ่มที่จะติดตั้งลงในรูกุญแจ [3]
2. การเชื่อมต่อกับแหล่งพลังงาน **
- เชื่อมต่อ Smart PDU เข้ากับแหล่งพลังงานที่เหมาะสม ตรวจสอบให้แน่ใจว่าแหล่งพลังงานตรงกับข้อกำหนดของสถานี DGX A100 และ Smart PDU เอง โดยทั่วไปสถานี DGX A100 ต้องการแหล่งพลังงานที่สามารถจัดหา 100V ถึง 240V AC โดยมีการจัดอันดับกระแสเฉพาะ [1] [7]3. อุปกรณ์เชื่อมต่อ **
- เชื่อมต่อสถานี DGX A100 กับ Smart PDU โดยใช้สายไฟที่เหมาะสม ระบบ DGX A100 ใช้สายไฟล็อคเพื่อความปลอดภัยและการปฏิบัติตาม [1]- ตรวจสอบให้แน่ใจว่าอุปกรณ์ทั้งหมดเชื่อมต่ออย่างถูกต้องและขับเคลื่อนก่อนดำเนินการ
4. การเชื่อมต่อเซ็นเซอร์ **
- หาก PDU อัจฉริยะของคุณรองรับเซ็นเซอร์เพิ่มเติม (เช่นเซ็นเซอร์อุณหภูมิหรือความชื้น) ให้เชื่อมต่อตามคำแนะนำของผู้ผลิต เซ็นเซอร์เหล่านี้สามารถให้ข้อมูลสิ่งแวดล้อมที่มีคุณค่าสำหรับการตรวจสอบและรักษาสภาพการทำงานที่ดีที่สุด [3]5. การกำหนดค่า PDU อัจฉริยะ **
- เข้าสู่ระบบ: เข้าถึงเว็บอินเตอร์เฟสของ Smart PDU โดยใช้ข้อมูลรับรองผู้ดูแลระบบเริ่มต้น (เช่นผู้ดูแลระบบ/ผู้ดูแลระบบ) เปลี่ยนข้อมูลรับรองเหล่านี้เพื่อความปลอดภัย [3]- การตั้งค่าเครือข่าย: กำหนดค่าการตั้งค่าเครือข่ายเพื่อเปิดใช้งานการตรวจสอบระยะไกล ตั้งค่าที่อยู่ IP, Subnet Mask, เกตเวย์และเซิร์ฟเวอร์ DNS ตามที่ต้องการสำหรับสภาพแวดล้อมเครือข่ายของคุณ [6]
- บัญชีผู้ใช้: สร้างบัญชีผู้ใช้ผู้ดูแลระบบใหม่และลบบัญชีผู้ดูแลระบบเริ่มต้นเพื่อความปลอดภัยที่ปรับปรุงแล้ว [3]
- ชื่อเซ็นเซอร์: ถ้ามีให้กำหนดค่าชื่อสำหรับเซ็นเซอร์ที่เชื่อมต่อใด ๆ เพื่อระบุแหล่งข้อมูลได้อย่างง่ายดาย [3]
6. การเชื่อมต่อกับเครือข่าย **
- เชื่อมต่อ Smart PDU เข้ากับเครือข่ายของคุณ สิ่งนี้ช่วยให้การเข้าถึงระยะไกลสำหรับการตรวจสอบและการกำหนดค่า ตรวจสอบให้แน่ใจว่าการเชื่อมต่อเครือข่ายมีความเสถียรและปลอดภัย [3]7. การตรวจสอบการใช้พลังงาน **
- ใช้เครื่องมือเว็บอินเตอร์เฟสหรือ IPMI ของ Smart PDU เพื่อตรวจสอบการใช้พลังงาน PDU สามารถให้ข้อมูลแบบเรียลไทม์และประวัติศาสตร์เกี่ยวกับการใช้พลังงานซึ่งเป็นสิ่งสำคัญสำหรับการจัดการประสิทธิภาพการใช้พลังงานและความสามารถในการวางแผน [4]- สำหรับตัวชี้วัดการใช้พลังงานโดยละเอียด (เช่นพลังงานทั้งหมดตั้งแต่พลังงาน) คุณอาจต้องใช้เครื่องมือภายนอกเช่น Prometheus หรือ InfluxDB เพื่อรวบรวมและวิเคราะห์ข้อมูลเมื่อเวลาผ่านไป [4]
8. การรวมเข้ากับสถานี DGX A100 **
- ตรวจสอบให้แน่ใจว่าสถานี DGX A100 เชื่อมต่อกับ Smart PDU อย่างถูกต้องและสายไฟทั้งหมดจะถูกล็อคอย่างปลอดภัยเพื่อป้องกันการขาดการเชื่อมต่อโดยไม่ตั้งใจ [1]-ใช้เครื่องมือเช่น Nvidia DCGM หรือ `nvidia-smi` เพื่อตรวจสอบการใช้พลังงานเฉพาะของ GPU หากจำเป็น [4]
โดยทำตามขั้นตอนเหล่านี้คุณสามารถตั้งค่า PDU อัจฉริยะอย่างมีประสิทธิภาพสำหรับการตรวจสอบพลังงานในสถานี DGX A100 ของคุณเพื่อให้มั่นใจว่าการจัดการพลังงานและความน่าเชื่อถือของระบบมีประสิทธิภาพ
การอ้างอิง:
[1] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_smart_pdu_revv.pdf?1493072227
[4] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[5] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[6] https://www.ibm.com/docs/8335-gtg/p9hbf/p9hbf_configutility_isp.htm
[7] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[8] https://www.youtube.com/watch?v=I6NX74LQTCA