TPU naudojimo iššūkiai su „Pytorch“ ir „MXNET“

Kokie yra įprasti iššūkiai naudojant TPU su tokiomis rėmais kaip „Pytorch“ ar „MXNET“

Kai naudojate TPU su tokiomis rėmais kaip „Pytorch“ ar „MXNET“, kyla keletas bendrų iššūkių:

1. Ribotas karkaso palaikymas: TPU yra glaudžiai integruotos su „TensorFlow“, todėl jie yra mažiau suderinami su kitomis rėmais, tokiais kaip „Pytorch“ ir „MXNET“. „Pytorch“ naudoja „Torch_xla“ paketą TPU palaikyti, tačiau ši atrama nėra tokia natūrali ar platus kaip „Tensorflow“ [1] [3].

2. Programavimo sudėtingumas: TPU turi pritaikytą žemo lygio aparatinės įrangos architektūrą ir instrukcijų rinkinį, todėl juos sunkiau programuoti tiesiogiai, palyginti su GPU. Daugelis kūrėjų pasikliauja aukšto lygio API, pavyzdžiui, „Tensorflow“, kad efektyviai panaudotų TPUS [3].

3. Tikslūs apribojimai: TPU yra optimizuoti mažo tikslumo skaičiavimams (8 bitų ir žemiau), visų pirma palaikant FP32 ir BF16 matematiką, esant sumažintam pralaidumui. Tai gali apriboti modelių, kurie nelabai įvertina mažesnius tikslus, našumą, skirtingai nei GPU, kurie palaiko platesnį plūduriuojančio taško tikslų diapazoną [3].

4. Atminties apribojimai: TPU paprastai turi ribotą borto atmintį (8-16 GB kiekvienoje luste), o tai gali apriboti modelių, kuriuos galima išmokyti be reikšmingo našumo pablogėjimo dėl atminties keitimo, dydį [3].

5. Mastelio iššūkiai: Nors TPU siūlo mastelį tam tikrose konfigūracijose (pvz., TPU V3 podionuose), didesnėms sąrankoms reikia didelių inžinerinių pastangų, skirtingai nei kai kuriose GPU architektūrose, kurios gali lengviau mastelio keitimas [3].

6. Bendruomenė ir dokumentacija: Kadangi TPU pirmiausia yra optimizuoti „Tensorflow“, dokumentacijai ir bendruomenės palaikymui, norint juos naudoti su kitomis rėmais, tokiais kaip „Pytorch“ ar „MXNET“, gali būti ne taip išsamios, todėl kūrėjams sunkiau šalinti ir optimizuoti jų naudojimą [2] [6] [6] .

Citatos:
[1] https://github.com/apache/incubator-mxnet/issues/19280
[2] https://botpenguin.com/blogs/mxnet-vs-tensorflow
[3] https://www.dataknobs.com/generativeai/tpu/tpu-limitations.html
[4] https://www.altexsoft.com/blog/pytorch-library/
]
[6] https://www.cronj.com/blog/ai-frameworks/
[7] https://www.datacamp.com/blog/tpu-vs-gpu-ai
[8] https://stackoverflow.com/questions/48233780/advantages-and-disadvanages-of-mxnet-compared-to-oter-peeing-apis
[9] https://www.freecodecamp.org/news/deep-learning-frameworks-compared-mxnet-vs-tensorflow-vs-dl4j-vs-pytorch/