Diegti „Deepseek-R1“ AWS reikalauja reikšmingų GPU išteklių dėl didelių dydžių ir skaičiavimo poreikių. Čia pateikiami konkretūs GPU reikalavimai ir aspektai, skirti diegti „Deepseek-R1“ modelius AWS:
1. Modelio dydis ir VRAM reikalavimai: Visas „Deepseek-R1“ modelis turi 671 milijardą parametrų, reikalaujančio esminio VRAM. Natūraliam FP8 palaikymui VRAM reikalavimas yra maždaug 700 GB. Tačiau jei modelis paverčiamas BF16 (kurį palaiko GPU, pavyzdžiui, NVIDIA A100), VRAM reikalavimas padidėja iki maždaug 1,4 TB dėl didesnio tikslumo formato [2] [4].
2. Rekomenduojama GPU konfigūracija: visam „Deepseek-R1“ modeliui reikalinga kelių GPU sąranka. AWS egzemplioriai, tokie kaip „p4d.24xlarge“ arba „p5.24xlarge“, turintys „Nvidia A100 GPU“, yra tinkami. Šie atvejai suteikia reikiamą VRAM ir apskaičiuojamą galią didelio masto modeliams. BF16 skaičiavimui rekomenduojama sąranka su 16 NVIDIA A100 GPU (kiekviena su 80 GB VRAM) rekomenduojama [1] [2].
3. AWS egzemplioriaus parinktys: AWS siūlo keletą egzempliorių, galinčių palaikyti „Deepseeek-R1“ modelių diegimą, įskaitant „P4D.24xlarge“ ir „P5.24xlarge“. Šie atvejai suteikia didelio našumo skaičiavimo galimybes „NVIDIA A100 GPUS“, kurie yra idealūs didelio masto AI modeliams, tokiems kaip „Deepseek-R1“ [7].
4. Quantization ir Paskirstytas skaičiavimas: Siekiant sumažinti VRAM reikalavimus ir pagerinti efektyvumą, galima pritaikyti kiekybinio nustatymo metodus. Pvz., Naudojant 4 bitų kiekybinį kiekį, VRAM poreikis gali žymiai sumažinti, leidžiant diegti mažiau GPU. Be to, paskirstytos skaičiavimo sistemos gali būti panaudotos darbo krūviui paskleisti keliuose egzemplioriuose, padidinant mastelį ir našumą [4].
5. Kompiute ir atminties reikalavimai: Be GPU reikalavimų, norint diegti „Deepseek-R1“, taip pat reikia pakankamai CPU atminties ir bendrų sistemos išteklių. AWS atvejų, turinčių didelę CPU atmintį, pavyzdžiui, „G6e.4xlarge“, gali patenkinti papildomus šių modelių skaičiavimo poreikius [6].
Apibendrinant, norint diegti „Deepseeek-R1“ AWS, reikia patikimo GPU sąrankos, geriausia naudojant „NVIDIA A100 GPUS“, ir galimai panaudojant kiekybinį ir paskirstytą skaičiavimą, kad būtų galima optimizuoti išteklių panaudojimą.
Citatos:
[1] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[2] https://www.theriseunion.com/en/blog/deepseek-v3-r1-671b-gpu-requirements.html
[3] https://www.byteplus.com/en/topic/385683
[4] https://apxml.com/posts/gpu-requirements-deepseek-r1
[5] https://www.youtube.com/watch?v=5RHPZGDOGLE
[6] https://community.databricks.com/t5/machine-learning/underve-comompute-requirements-for-deploying-deepseek-r1/td-p/109187
[7] https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-avable-on-aws/
[8] https://www.reddit.com/r/ollama/comment