Optimizuojant „Deepseek-R1“ našumą AWS, reikia kelių tinklo nustatymų ir konfigūracijų. Čia pateikiama išsami apžvalga, kaip pagerinti jo našumą:
1. EC2 egzemplioriaus konfigūracija **
- egzemplioriaus tipas: Eksponavimo tipo pasirinkimas su pakankama GPU galia, tokia kaip „G4DN.xlarge“, yra labai svarbus norint efektyviai paleisti „Deepseek-R1“ modelius. Šis pavyzdys palaiko NVIDIA tinklo tvarkykles, kurios yra būtinos GPU pagreičiui [1].- Tinklo nustatymai: naudokite numatytuosius VPC parametrus ir pasirinkite prieinamumo zoną, kurioje įdiegta jūsų EC2 egzempliorius. Tai užtikrina, kad jūsų egzempliorius yra gerai sujungtas ir prieinamas jūsų tinkle [1].
2. Saugumo grupės **
- Konfigūruokite naują saugos grupę su konkrečiomis atvykstamaisiais taisyklėmis:- HTTP srautas: leiskite HTTP srautui iš patikimo IP diapazono (pvz., „Mano IP“), kad galėtumėte naudotis žiniatinklio prieiga prie modelio.
- TCP srautas 3000 prievade: leiskite TCP srautui iš VPC CIDR diapazono, kad būtų lengviau susisiekti su programų apkrovos balansavimo įrenginiu.
- HTTPS srautas: Leiskite HTTPS srautui iš VPC CIDR diapazono saugiam ryšiui [1].
3. Programos apkrovos balanseris (Alb) **
-Schema: Nustatykite internetą nukreiptą ALB, kad jūsų „Deepseeek-R1“ modelis būtų parodytas išoriniam srautui.- Įkelkite balansavimo priemonę IP adreso tipas: paprastumui ir suderinamumui naudokite IPv4.
- Tinklo nustatymai: pasirinkite numatytuosius VPC parametrus ir tą pačią prieinamumo zoną kaip ir jūsų EC2 egzempliorius.
- Saugos grupės: naudokite saugos grupę, sukurtą EC2 konfigūracijos metu, kad užtikrintumėte nuoseklų prieigos valdiklį [1].
4. Tikslinės grupės konfigūracija **
- Tikslo tipas: kaip tikslinį tipą pasirinkite „Extrandai“.- Uosis: Norėdami persiųsti srautą į EC2 egzempliorių, naudojate „Deepseeek-R1“ modelį, naudokite 3000 prievadą.
- Tikslinės grupės pavadinimas: Nurodykite tikslinę grupę (pvz., „Deepseek-TG“), kad būtų lengva identifikuoti [1].
5. „Amazon Sagemaker“, skirtas patobulintam našumui **
-Modelio diegimas: Apsvarstykite galimybę diegti „Deepseeek-R1“ modelius naudojant „Amazon Sagemaker“, kuris siūlo tokias funkcijas kaip automatinis maskavimas ir elastinis apkrovos balansavimas. Tai gali pagerinti reagavimą ir mastelį [3] [4].- Privatus S3 kibiras: saugokite modelio svorius privačiame S3 kibire, kad sumažintumėte latenciją ir padidintumėte saugumą, išlaikydami modelio duomenis savo AWS paskyroje [3].
6. Geriausia optimizavimo praktika **
- Greitas optimizavimas: Norėdami patobulinti „Deepseeek-R1“ modelių pagrįstumo galimybes, naudokite tokius kaip greito optimizavimo „Amazon“ optimizavimas [7].- Regiono pasirinkimas: pasirinkite AWS regioną, esantį arčiausiai jūsų vartotojų, kad sumažintumėte latenciją ir optimizuotumėte išlaidas [6].
Įdiegę šiuos tinklo nustatymus ir konfigūracijas, galite optimizuoti „Deepseeek-R1“ našumą AWS, užtikrindami efektyvų, keičiamą ir saugų modelio diegimą.
Citatos:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/depalling-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://northflank.com/blog/self-host-deepseek-r1-on-aws-gcp-azure-and-k8s-in-three-easyy-steps
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[4] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://repost.aws/questions/quzc1_jmmesbmpauozqh5jca/guidance-on-aws-deepseek-ai- airping ir-deploard-options
[6] https://crossasyst.com/blog/deepseek-r1-on-ws-bedrock/
[7] https://aws.amazon.com/blogs/machine-learning/optimize-reasoning-models-tyle-deepspt-with-prompt-optimization-on-mazon-bedrock/
[8] https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-avable-on-aws/