Automatinis skalavimas „Amazon Sagemaker“ daro didelę įtaką modelių, tokių kaip „Deepseeek-R1“, diegimo išlaidas, dinamiškai pakoreguodamas egzempliorių skaičių, pagrįstą darbo krūvio poreikiais. Čia pateiktas išsamus paaiškinimas, kaip automatinis maskavimas daro įtaką sąnaudoms:
Automatinio mastelio pagrindai
Automatinis maskavimas leidžia „Sagemaker“ automatiškai padidinti arba sumažinti jūsų modeliui skirtų egzempliorių skaičių, atsižvelgiant į gaunamą srautą ar darbo krūvį. Tai reiškia, kad didelės paklausos laikotarpiais yra numatyta daugiau atvejų, kad būtų galima valdyti padidėjusį apkrovą, ir, atvirkščiai, mažos paklausos laikotarpiais atvejai sumažinami, kad būtų sumažintos nereikalingos išlaidos [7].
išlaidų optimizavimas
1. Sumažinti tuščiosios eigos ištekliai: sumažindami iki nulinio egzempliorių neveiklumo laikotarpiais, jūs vengiate mokėti už tuščiąja eiga ištekliais, o tai gali žymiai sumažinti išlaidas, ypač plėtros ar bandymo aplinkose, kuriose eismas gali būti atsitiktinis [4].
2. Efektyvus išteklių panaudojimas: Automatinis skalavimas užtikrina, kad sumokėsite tik už reikalingus išteklius bet kuriuo metu. Tai reiškia, kad piko valandomis galite valdyti padidėjusį srautą, neperdirbdami išteklių, ir ne piko valandomis jūs sumažinate, kad sumažintumėte išlaidas [7].
3. Numatomas išlaidų valdymas: Naudodamiesi automatiniu masteliu, galite nustatyti numatomus srauto modelius suplanuotus mastelio veiksmus. Tai leidžia efektyviau valdyti išlaidas, suderinant išteklių paskirstymą su numatoma paklausa [4].
„Deepseek-R1“ diegimo aspektai
Diegdami „Deepseek-R1“ arba jo distiliuotus variantus „Sagemaker“, automatinis skalavimas gali būti ypač naudingas. Šie modeliai, ypač didesni, pavyzdžiui, „Deepseek-R1-Distill-QWEN-14B“ arba „Deepseeek-R1-Distill-QWEN-32B“, reikalauja reikšmingų skaičiavimo išteklių ir gali būti brangiai kainuojantys nuolat veikti [6]. Pasinaudodami automatiniu masteliu, galite užtikrinti, kad šie ištekliai būtų aprūpinti tik tada, kai reikia, sumažindami bendrąsias išlaidas.
Saugumo ir veiklos aspektai
Nors automatinis skalavimas pirmiausia yra išlaidų optimizavimo strategija, ji taip pat gerai integruoja su „Sagemaker“ saugos funkcijomis. Pavyzdžiui, modelių diegimas iš privataus S3 kibiro gali sustiprinti saugumą, išlaikydami modelio svorius arčiau jūsų galinių taškų ir prieš diegdami leisdami atlikti pažeidžiamumo nuskaitymus [3]. Be to, naudojant didesnius partijas realiojo laiko išvadoms, galima optimizuoti tiek sąnaudas, tiek našumą [2].
Apibendrinant galima pasakyti, kad automatinis skalavimas „Sagemaker“ yra galinga priemonė, skirta optimizuoti modelių, tokių kaip „Deepseeek-R1“, diegimo išlaidas, užtikrinant, kad ištekliai būtų suderinti su faktine paklausa, ir taip sumažinant nereikalingas išlaidas mažo aktyvumo laikotarpiais.
Citatos:
[1] https://www.linkedin.com/pulse/unlocking-cost-effictificatity-strategies-optimizing-amazon-af4of
[2] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[4] https://aws.amazon.com/blogs/machine-learning/unlock-cost-savings-with-the-new-se-down-downo
[5] https://community.aws/content/2sg84dnucfza9z4hdfqti0tcvkp/deploying-deepseek-r1-on-amazon-sagemaker?lang=en
[6] https://community.aws/content/2Z6dlaoHx12yunoeas7qb5yth0q/leveraging-deepseek-on-on-ws ?lang=en
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling.html
[8] https://www.linkedin.com/posts/ranman_while-deepseek-r1-is-technicy-aveable-activity-7290893724543262721-3QIV
[9] https://aws.amazon.com/sagemaker/pricing/