Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hur fungerar automatisk skalning för Deepseek-R1 på Sagemaker


Hur fungerar automatisk skalning för Deepseek-R1 på Sagemaker


Auto-skalning för Deepseek-R1-modeller på Amazon Sagemaker är en kritisk funktion som gör att dessa stora språkmodeller kan justera sina resurser dynamiskt baserat på volymen av inkommande förfrågningar. Denna förmåga är avgörande för att upprätthålla lyhördhet, tillförlitlighet och kostnadseffektivitet i verkliga applikationer. Här är en detaljerad översikt över hur automatisk skalning fungerar för Deepseek-R1 på Sagemaker:

Översikt över autoskalning

Auto-skalning i Sagemaker är utformad för att automatiskt justera antalet instanser baserat på arbetsbelastningen. För Deepseek-R1-modeller betyder detta att Sagemaker-slutpunkter kan skala horisontellt för att hantera ökad trafik genom att lägga till fler fall. Omvänt, under perioder med låg efterfrågan, kan Sagemaker skala ner till noll fall och därmed optimera resursanvändningen och minska kostnaderna.

Nyckelkomponenter i autoskalning

1. Lastbalansering: Sagemaker Endpoints stöder automatisk lastbalansering, som distribuerar inkommande förfrågningar över flera instanser. Detta säkerställer att ingen enda instans är överväldigad, vilket upprätthåller konsekvent prestanda även under höga belastningsförhållanden.

2. Skalningspolicy: Användare kan definiera skalningspolicyer baserade på specifika mätvärden, såsom CPU -användning eller begära latens. Dessa policyer avgör när man ska skala upp eller ner. För Deepseek-R1-modeller kan vanliga mätvärden inkludera sluttillstånd, genomströmningstokens, tid till första token och inter-token latens.

3. Samtidiga och instansstyper: Deepseek-R1-modeller kan distribueras på olika instansstyper, var och en med olika GPU-konfigurationer (t.ex. 1, 4 eller 8 GPU per instans). Valet av instansstyp påverkar modellens prestanda och skalbarhet. Genom att välja lämpliga instansstyper och konfigurera samtidighetsnivåer kan användare optimera modellens lyhördhet och effektivitet.

Distributionsprocess

För att distribuera Deepseek-R1-modeller med auto-skalning på Sagemaker följer användare vanligtvis dessa steg:

-Modellval: Välj lämplig DeepSeek-R1-modellvariant, till exempel de destillerade versionerna (t.ex. Deepseek-R1-Distill-llama-8B), som erbjuder en balans mellan prestanda och effektivitet.

- Endpoint -konfiguration: Ställ in en Sagemaker Endpoint med den valda modellen. Detta innebär att specificera modellens plats (t.ex. kramar ansiktsnav eller en privat S3 -hink), konfigurera miljövariabler och definiera instansstypen och initial instansantal.

-Auto-skalningskonfiguration: Definiera autoskalningspolicy baserad på önskade mätvärden (t.ex. CPU-användning). Detta säkerställer att slutpunkten skalas dynamiskt som svar på förändringar i arbetsbelastningen.

- Övervakning och optimering: Övervaka kontinuerligt slutpunktens prestanda och justera skalningspolicyer efter behov för att upprätthålla optimal prestanda och kostnadseffektivitet.

Fördelar med autoskalning för Deepseek-R1

- Kostnadseffektivitet: Genom att avsluta under perioder med låg efterfrågan kan organisationer avsevärt minska kostnaderna för att driva stora språkmodeller.
- Förbättrad lyhördhet: Auto-skalning säkerställer att modellen förblir lyhörd även under höga belastningsförhållanden, vilket förbättrar användarupplevelsen.
- Förenklad ledning: Sagemakers hanterade infrastruktur förenklar distributionen och skalningsprocessen, vilket gör att utvecklare kan fokusera på modellutveckling och applikationsintegration snarare än infrastrukturhantering.

Sammantaget ger automatisk skalning för Deepseek-R1-modeller på Sagemaker ett robust och effektivt sätt att distribuera avancerade språkmodeller, vilket säkerställer att de kan hantera olika arbetsbelastningar samtidigt som de upprätthåller hög prestanda och kostnadseffektivitet.

Citeringar:
[1] https://aws.amazon.com/blogs/machine-learning/deploy2
]
[3] https://repost.aws/questions?view=all&sort=Recent&page=EYJ2ijoylcjuijoimxfkulbzbgfwotbz Qxfgakl5nzbxut09iiwidci6ilfjbxdxdlptbtrgzknhzkvprjlwsstza2hsmdgyMutjwe1rdhkzse5Snfk9in0
]
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=Recent&page=eyj2ijoylcjuijoiqup4cuorys9pt29q AEHNTJH6NDY0DZ09IIWIDCI6INNVCUNVRMFIMFQ0OTLUC1V5MKFTAWJPWMJVTHLKOFJMTTRXD3YVTCMC9IN00
[7] https://www.oneclickitsolution.com/centerofexcellence/aiml/deploy2
[8] https://crossasyst.com/blog/deepseek-r1-on-ws-bedrock/
]