Automatické měřítko významně zvyšuje výkon modelů DeepSeek-R1 na Amazon SageMaker dynamickou úpravou počtu instancí a modelových kopií založených na poptávce v reálném čase. Tato schopnost zajišťuje, že model dokáže efektivně zvládnout kolísání pracovní zátěže a poskytuje bezproblémový uživatelský zážitek při optimalizaci využití zdrojů a nákladů.
Klíčové výhody automatického scalingu pro DeepSeek-R1 na SageMaker
1. Dynamické přidělení zdrojů: Automatické měřítko umožňuje SageMaker poskytovat další instance a nasadit další modelové kopie, když se zvyšuje provoz, což zajišťuje, že model dokáže zvládnout vyšší objem požadavků bez ohrožení výkonu. Naopak, jak se provoz snižuje, jsou odstraněny zbytečné případy, což snižuje náklady tím, že se zabrání nečinným zdrojům [1] [2] [5].
2. Zlepšená citlivost: Rozšířením se zvýšenou poptávkou pomáhá automatické měřítko udržovat nízkou latenci a vysokou propustnost. To je zvláště důležité pro generativní modely AI, jako je DeepSeek-R1, kde citlivost přímo ovlivňuje uživatelskou zkušenost [2] [8].
3.. Efektivita nákladů: Automatické měřítko zajišťuje, že zdroje jsou využívány efektivně. Během hodin, které nejsou špičkové, může koncový bod škálovat na nulu, optimalizovat využití zdrojů a nákladovou efektivitu. Tato funkce je obzvláště prospěšná pro aplikace s variabilními vzory provozu [1] [5].
4. adaptivní škálování: Automatické měřítko Sagemakeru jsou navrženy tak, aby se přizpůsobily specifickým potřebám generativních modelů AI, jako je DeepSeek-R1. S využitím metrik s vysokým rozlišením, jako je souběžná republika a souběžná republika, může systém přijímat přesná rozhodnutí o škálování a zajistit, aby model zůstal v pohotovosti a nákladově efektivní [2] [8].
5. Integrace s vyrovnáváním zatížení: Automatické měřítko bez problémů funguje s elastickým vyrovnáváním zatížení, aby se efektivně distribuovala příchozí požadavky napříč rozšířenými zdroji. Tato integrace zajišťuje, že žádný jediný instance není ohromen a udržuje konzistentní výkon napříč všemi požadavky [1] [8].
Hodnocení nasazení a výkonu
Modely DeepSeek-R1 lze nasadit na SAGEMAKER pomocí inference pro generování textu obávajícího obličeje (TGI), který podporuje automatické měřítko. Výkon těchto modelů je vyhodnocen na základě metrik, jako je latence na end-to-end, propustnost, čas do prvního tokenu a latence mezi tónem. Zatímco poskytnutá hodnocení nabízejí informace o relativním výkonu, uživatelé se doporučuje, aby provedli své vlastní testování, aby optimalizovali výkon pro konkrétní případy použití a hardwarové konfigurace [1] [4].
Stručně řečeno, automatické měřítko na SageMaker zvyšuje výkon DeepSeek-R1 zajištěním dynamického přidělování zdrojů, zlepšením citlivosti, optimalizací nákladů a přizpůsobováním se měnícím se požadavkům a přitom zachování vysoce kvalitních schopností jazykového modelu.
Citace:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-face-tgi-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuijoizgtmyKtumnf0wuzn Y1DMAHKXCGRVUT09IIWIDCI6IKZRBITWVZI2M05ZVKLZBWGZZTOMITOR
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws-sters-deeepseek-r1-as-pented-serverless-model-recomings-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-Neference--manches-frat-auto-scaling-for-generative-aimodely/