Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kako samodejno skaliranje deluje za Deepseek-R1 na SageMakerju


Kako samodejno skaliranje deluje za Deepseek-R1 na SageMakerju


Samodejna lestvica za modele Deepseek-R1 na Amazon SageMakerju je kritična funkcija, ki omogoča, da ti veliki jezikovni modeli dinamično prilagajajo svoje vire na podlagi obsega dohodnih zahtev. Ta sposobnost je bistvenega pomena za ohranjanje odzivnosti, zanesljivosti in stroškovne učinkovitosti v aplikacijah v resničnem svetu. Tukaj je podroben pregled, kako samodejno širjenje deluje za Deepseek-R1 na SageMakerju:

Pregled samodejnega obsega

Samodejno skaliranje v SageMakerju je zasnovano tako, da samodejno prilagodi število primerkov na podlagi delovne obremenitve. Za modele Deepseek-R1 to pomeni, da lahko končne točke SageMakerja spreminjajo vodoravno, da obvladajo povečani promet z dodajanjem več primerkov. Nasprotno pa lahko v obdobjih majhnega povpraševanja SAGEMAKER zmanjša na nič primerov in s tem optimizira porabo virov in zmanjša stroške.

Ključne komponente samodejnega obsega

1. uravnoteženje obremenitve: Končne točke SageMakerja podpirajo samodejno uravnoteženje obremenitve, ki distribuira dohodne zahteve v več primerkih. To zagotavlja, da noben primer ni preobremenjen in ohranja dosledne zmogljivosti tudi v pogojih z velikimi obremenitvami.

2. Politike skaliranja: Uporabniki lahko določijo politike skaliranja na podlagi posebnih meritev, kot je uporaba CPU -ja ali zahteva zakasnitev. Te politike določajo, kdaj povedati navzgor ali navzdol. Za modele Deepseek-R1 lahko skupne metrike vključujejo zamude od konca do konca, žetone pretoka, čas do prvega žetona in zakasnitev medsebojne.

3. Vrste sočasnosti in primerov: Modeli Deepseek-R1 se lahko uporabijo na različnih vrstah primerkov, pri čemer ima vsak z različnimi konfiguracijami GPU (npr. 1, 4 ali 8 GPU na primer). Izbira vrste primerka vpliva na uspešnost in razširljivost modela. Z izbiro ustreznih vrst primerkov in konfiguriranjem ravni sočasnosti lahko uporabniki optimizirajo odzivnost in učinkovitost modela.

Proces uvajanja

Za namestitev modelov DeepSeek-R1 z samodejnim skaliranjem na SageMaker uporabniki običajno sledijo tem korakom:

-Izbira modela: izberite ustrezno različico modela Deepseek-R1, kot so destilirane različice (npr. Deepseek-R1-Distill-Llama-8b), ki ponuja ravnovesje med uspešnostjo in učinkovitostjo.

- Konfiguracija končne točke: z izbranim modelom nastavite končno točko sagemakerja. To vključuje določitev lokacije modela (npr. Objemanje vozlišča obraza ali zasebnega vedra S3), konfiguriranje spremenljivk okolja in določitev vrste primerka in začetnega števila primerov.

-Konfiguracija samodejnega skaliranja: določite pravilnike o samodejnem merilu na podlagi želenih meritev (npr. Uporaba CPU). To zagotavlja, da se končna točka dinamično lestvico spreminja kot odziv na spremembe v delovni obremenitvi.

- Spremljanje in optimizacija: Nenehno spremljajte uspešnost končne točke in po potrebi prilagodite politike skaliranja, da ohranite optimalno uspešnost in stroškovno učinkovitost.

Prednosti samodejnega ocenjevanja za Deepseek-R1

- STROŠKA UPORABA: Organizacije lahko z zmanjšanjem v obdobjih nizkega povpraševanja znatno zmanjšajo stroške, povezane z izvajanjem velikih jezikovnih modelov.
- Izboljšana odzivnost: Samodejno širjenje zagotavlja, da model ostane odziven tudi v pogojih z visoko obremenitvijo, kar izboljšuje uporabniško izkušnjo.
- Poenostavljeno upravljanje: Upravljana infrastruktura SageMakerja poenostavi proces uvajanja in skaliranja, kar razvijalcem omogoča, da se osredotočijo na razvoj modela in integracijo aplikacij, ne pa na upravljanje infrastrukture.

Na splošno samodejno lestvico za modele Deepseek-R1 na SageMakerju zagotavlja močan in učinkovit način za uvajanje naprednih jezikovnih modelov, s čimer zagotavljajo različne delovne obremenitve, hkrati pa ohranjajo visoko zmogljivost in stroškovno učinkovitost.

Navedbe:
[1] https://aws.amazon.com/blogs/machine-learning/Deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-cainer/
[2] https://blogs.cisco.com/security/evaluting-security-risk-in-diepseek-and-other-frontier-loasoning-models
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuiiMxfkulbzbgfwotbz Qxfgakl5nzbxut09iwidCi6IlfjbxdxdlptbtrgzknHzkvprjlwsstza2hsmdgyMutjwe1rdhkzse5snfk9in0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hagging-face-tgi-on-amazon-sagemaker-ai/
[5] https://www.bytePlus.com/sl/topic/383390
[6] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuiiqup4cuorys9pt29q aehntjh6ndy0dz09iiwidCi6innvcunvrmfq0otLuc1v5mftawjpwmjvthlkofjmttrxd3yvyzrtcmc9in0
[7] https://www.oneclickitsolution.com/Centerofexcellence/aiml/Deploy-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-on-aws-bedrock/
[9] https://community.aws/content/2Z6DLAOHX12YUNOEAS7QB5YTH0Q/Leverating-deepseek-r1-on-aws?lang=sl