Samodejno skaliranje v Amazon SageMakerju znatno vpliva na stroške uvajanja modelov, kot je Deepseek-R1, tako da dinamično prilagaja število primerkov na podlagi potreb po delovni obremenitvi. Tu je podrobna razlaga, kako samodejno preseganje vpliva na stroške:
Osnove za samodejno skaliranje
Samodejno skaliranje omogoča, da SageMaker samodejno poveča ali zmanjša število primerkov, dodeljenih vašemu modelu, ki temelji na dohodnem prometu ali delovni obremenitvi. To pomeni, da je v obdobjih velikega povpraševanja več primerov za obvladovanje povečane obremenitve in obratno, v obdobjih majhnega povpraševanja se primeri zmanjšajo, da se zmanjšajo nepotrebne stroške [7].
Optimizacija stroškov
1. Zmanjšani viri v prostem teku: Če se v obdobjih neaktivnosti zmanjšate na nič primerov, se izognete plačilu za proste vire, kar lahko znatno zmanjša stroške, zlasti v razvoju ali testiranju, kjer je promet lahko sporadičen [4].
2. Učinkovita uporaba virov: samodejno preseganje zagotavlja, da plačujete le vire, ki jih potrebujete kadar koli. To pomeni, da lahko v največjih urah upravljate z večjim prometom brez prekomernih virov in v času zunaj vrha zmanjšate, da zmanjšate stroške [7].
3. Predvidljivo upravljanje stroškov: S samodejnim pregledom lahko nastavite načrtovane ukrepe za skaliranje za predvidljive vzorce prometa. To vam omogoča učinkovitejše upravljanje stroškov z usklajevanjem razporeditve virov s pričakovanim povpraševanjem [4].
Deepseek-R1 premisleki o uvajanju
Pri nameščanju Deepseek-R1 ali njegovih destiliranih različic na SAGEMAker je lahko samodejno širjenje še posebej koristno. Ti modeli, zlasti večji, kot so Deepseek-R1-Distill-Qwen-14b ali Deepseek-R1-Distill-Qwen-32b, zahtevajo pomembne računske vire in jih je mogoče neprekinjeno voditi [6]. Z uporabo samodejnega obsega lahko zagotovite, da se ti viri zagotavljajo le, kadar je to potrebno, kar zmanjša skupne stroške.
Varnostni in uspešnost
Medtem ko je samodejno lestvico predvsem strategija za optimizacijo stroškov, se dobro integrira tudi z varnostnimi funkcijami SageMakerja. Na primer, uvajanje modelov iz zasebnega vedra S3 lahko izboljša varnost, tako da model uteži bližje končnim točkam in omogoči preglede ranljivosti pred uvajanjem [3]. Poleg tega lahko uporaba večjih velikosti serije za sklepanje v realnem času optimizira tako stroške kot zmogljivost [2].
Če povzamemo, je samodejno lestvico v SageMakerju močno orodje za optimizacijo stroškov uvajanja modelov, kot je Deepseek-R1, z zagotavljanjem, da so sredstva usklajena z dejanskim povpraševanjem, s čimer se zmanjša nepotrebne stroške v obdobjih nizke aktivnosti.
Navedbe:
[1] https://www.linkedin.com/pulse/unlocking-cost-effice-trategies-optimizing-amazon-af4of
[2] https://aws.amazon.com/blogs/machine-learning/Deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-cainer/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hagging-face-tgi-on-amazon-sagemaker-ai/
[4] https://aws.amazon.com/blogs/machine-learning/unlock-cost-savings-with-the-new-scale-down-to-zero-feature-in-amazon-sagemaker-inference/
[5] https://community.aws/content/2sg84Dnucfza9z4hdfqti0tcvkp/deploy-deepseek-r1-on-amazon-sagemaker?lang=en
[6] https://community.aws/content/2Z6DLAOHX12YUNOEAS7QB5YTH0Q/Leverating-deepseek-r1-on-aws?lang=sl
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://www.linkedin.com/posts/ranman_while-deepseek-r1-is-technično-available-aktivnost-7290893724543262721-3qiv
[9] https://aws.amazon.com/sagemaker/pricing/