การฝึกอบรมเกี่ยวกับ Core TPU หนึ่งครั้งกับแปดสามารถส่งผลกระทบอย่างมีนัยสำคัญเนื่องจากลักษณะการกระจายของ TPU TPU แต่ละตัวมีแปดแกนและแกนเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับการประมวลผลแบบขนานของการดำเนินการเทนเซอร์ซึ่งเป็นพื้นฐานของการคำนวณเครือข่ายประสาท [8] เมื่อใช้แกน TPU เดี่ยวรุ่นโมเดลบนแกนเฉพาะนั้นใช้ประโยชน์จากสถาปัตยกรรมที่ดีที่สุดสำหรับเมทริกซ์คูณ [8] อย่างไรก็ตามเมื่อใช้ทั้งแปดคอร์กระบวนการฝึกอบรมสามารถแจกจ่ายผ่านคอร์เหล่านี้ซึ่งอาจนำไปสู่เวลาการฝึกอบรมที่เร็วขึ้นเนื่องจากการขนานกัน
โดยทั่วไปการใช้หลายแกนช่วยให้การใช้ประโยชน์จากทรัพยากรของ TPU ได้ดีขึ้นเช่นแบนด์วิดท์หน่วยความจำที่สูงขึ้นและความสามารถในการเชื่อมต่อระหว่างกันซึ่งสามารถปรับปรุงปริมาณการฝึกอบรมโดยรวม [2] นี่เป็นประโยชน์อย่างยิ่งสำหรับแบบจำลองขนาดใหญ่หรือชุดข้อมูลที่การประมวลผลแบบขนานสามารถลดเวลาการฝึกอบรมได้อย่างมีนัยสำคัญ อย่างไรก็ตามการได้รับประสิทธิภาพที่แท้จริงขึ้นอยู่กับว่าโมเดลและข้อมูลได้รับการปรับให้เหมาะสมสำหรับการฝึกอบรมแบบกระจายใน TPUs
ในบางกรณีหากโมเดลหรือข้อมูลไม่เหมาะสมสำหรับการขนานในหลาย ๆ คอร์ความแตกต่างของประสิทธิภาพอาจไม่เด่นชัด นอกจากนี้ปัจจัยเช่นคอขวด I/O หรือความซับซ้อนของแบบจำลองสามารถมีผลต่อประสิทธิภาพของการใช้แกน TPU หลายตัว [2] อย่างไรก็ตามสำหรับงานการเรียนรู้ของเครื่องจักรส่วนใหญ่การใช้ประโยชน์จาก TPU ทั้งแปดคอร์ของ TPU นั้นมีประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับการใช้เพียงแกนเดียว
การอ้างอิง:[1] https://www.datacamp.com/blog/tpu-vs-gpu-ai
[2] https://eng.snap.com/training-models-with-tpus
[3] https://blog.google/technology/ai/difference-cpu-gpu-tpu-trillium/
[4] https://cloud.google.com/blog/products/ai-machine-learning/an-in-depth-look-at-google-first-tensor-processing-unit-tpu
[5] https://www.linkedin.com/pulse/gpus-vs-tpus-comprehensom-comparison-neural-network-workloads-joel
[6] https://www.reddit.com/r/machinelearning/comments/19e8d1a/d_when_does_it_make_sense_to_train_tpu/
[7] https://cloud.google.com/blog/products/compute/performance-per-dollar-of-gpus-and-tpus-for-ai-prenfer
[8] https://lightning.ai/docs/pytorch/1.6.0/accelerators/tpu.html