Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jak funguje automatické měřítko pro Deepseek-R1 na SageMaker


Jak funguje automatické měřítko pro Deepseek-R1 na SageMaker


Automatické měřítko pro modely DeepSeek-R1 na Amazon SageMaker je kritickým rysem, který umožňuje těmto velkým jazykovým modelům dynamicky upravit své zdroje na základě objemu příchozích požadavků. Tato schopnost je nezbytná pro udržení citlivosti, spolehlivosti a efektivity nákladů v aplikacích v reálném světě. Zde je podrobný přehled o tom, jak automatické měřítko funguje pro DeepSeek-R1 na SageMaker:

Přehled automatického studenta

Automatické měřítko v SageMaker je navrženo tak, aby automaticky upravilo počet instancí na základě pracovního vytížení. U modelů DeepSeek-R1 to znamená, že koncové body SageMaker se mohou horizontálně rozšiřovat, aby zvládly zvýšený provoz přidáním dalších instancí. Naopak, během období nízké poptávky může SageMaker škálovat na nulové instance, čímž optimalizuje využití zdrojů a snižuje náklady.

Klíčové komponenty automatizace

1. Vyvažování zatížení: Koncové body SageMaker podporují automatické vyrovnávání zatížení, které distribuuje příchozí požadavky napříč několika instancemi. Tím je zajištěno, že žádný jediný instance není ohromen a udržuje konzistentní výkon i za podmínek vysokého zatížení.

2. Zásady škálování: Uživatelé mohou definovat zásady škálování založené na konkrétních metrikách, jako je využití CPU nebo latence žádostí. Tyto zásady určují, kdy se měnit nebo dolů. U modelů DeepSeek-R1 mohou běžné metriky zahrnovat latence na konci, tokeny propustnosti, čas do prvního tokenu a vzájemnou latenci.

3. Souběžnost a typy instancí: Modely DeepSeek-R1 lze nasadit na různých typech instancí, každý s různými konfiguracemi GPU (např. 1, 4 nebo 8 GPU na instanci). Výběr typu instance ovlivňuje výkon a škálovatelnost modelu. Výběrem příslušných typů instancí a konfigurací úrovní souběžnosti mohou uživatelé optimalizovat citlivost a efektivitu modelu.

Proces nasazení

Pro nasazení modelů DeepSeek-R1 s automatickou škálostí na SageMaker, uživatelé obvykle postupují tyto kroky:

-Výběr modelu: Vyberte příslušnou variantu modelu DeepSeek-R1, jako jsou destilované verze (např. DeepSeek-R1-Distill-Llama-8b), která nabízí rovnováhu mezi výkonem a účinností.

- Konfigurace koncového bodu: Nastavte koncový bod SageMaker s vybraným modelem. To zahrnuje určení umístění modelu (např. Objímání obličejového rozbočovače nebo soukromý kbelík S3), konfiguraci proměnných prostředí a definování typu instance a počáteční počet instancí.

-Konfigurace automatického škálování: Definujte zásady automatického škálování založené na požadovaných metrikách (např. Využití CPU). Tím je zajištěno, že koncový bod se dynamicky mění v reakci na změny pracovního vytížení.

- Monitorování a optimalizace: Neustále sledujte výkonnost koncového bodu a podle potřeby upravte škálovací zásady k udržení optimálního výkonu a efektivity nákladů.

Výhody automatického scalingu pro DeepSeek-R1

- Efektivita nákladů: Rozšířením během období nízké poptávky mohou organizace výrazně snížit náklady spojené s provozováním velkých jazykových modelů.
- Vylepšená citlivost: Automatické měřítko zajišťuje, že model zůstává reaguje i za podmínek s vysokým zatížením, což zvyšuje uživatelský zážitek.
- Zjednodušená správa: Spravovaná infrastruktura společnosti SageMaker zjednodušuje proces nasazení a škálování, což vývojářům umožňuje soustředit se spíše na vývoj modelu a integraci aplikací než na správu infrastruktury.

Celkově poskytuje automatické měřítko pro modely DeepSeek-R1 na SageMaker robustní a efektivní způsob nasazení pokročilých jazykových modelů a zajistit, aby zvládli různá pracovní zátěž při zachování vysokého výkonu a nákladové efektivity.

Citace:
[1] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek---distilled-models-on-amazon-sagemaker-using-a-large-model-container/
[2] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-Frontier-Reasoning-Models
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuijoimxfkulbzgfwotbz Qxfgakl5nzbxut09iiwidci6IlfjbxdxdlpTbtrgkknhkvprjlwsstza2hsmdgymutjwe1rdhkzse5snfk9in0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-face-tgi-on-amazon-sagemaker-ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcJuiJoiKoiqup4Cuorys9pt29Q aehntjH6ndy0dz09iiwidci6innvcrvrmfimfq0otluc1v5mkftawjpwmjvthlkofjmttrxd3yvyzrtcmc9in0
[7] https://www.oneclickitsolution.com/centerofexcellence/aiml/deploy-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-on-aws-bedrock/
[9] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leveraging-deepseek-r1-on-aws?lang=en