Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ako funguje automatické rozsahy pre Deepseek-R1 na Sagemaker


Ako funguje automatické rozsahy pre Deepseek-R1 na Sagemaker


Automatické rozsahy pre modely DeepSeek-R1 na Amazon Sagemaker je kritická vlastnosť, ktorá umožňuje týmto veľkým jazykovým modelom dynamicky upravovať svoje zdroje na základe objemu prichádzajúcich požiadaviek. Táto schopnosť je nevyhnutná na udržanie reakcie, spoľahlivosti a efektívnosti nákladov v aplikáciách v reálnom svete. Tu je podrobný prehľad o tom, ako funguje automatické rozsahy pre Deepseek-R1 na Sagemaker:

Prehľad automatického rozsahu

Automatické rozsahy v Sagemake je navrhnuté tak, aby automaticky upravovalo počet inštancií na základe pracovného zaťaženia. V prípade modelov Deepseek-R1 to znamená, že koncové body Sagemaker sa môžu horizontálne škálovať, aby zvládli zvýšenú návštevnosť pridaním ďalších inštancií. Naopak, v období s nízkym dopytom môže Sagemaker zväčšiť na nulové inštancie, čím optimalizuje využitie zdrojov a znižuje náklady.

Kľúčové komponenty automatického rozsahu

1. Vyvažovanie záťaže: Koncové body Sagemaker podporujú automatické vyváženie záťaže, ktoré distribuuje prichádzajúce požiadavky vo viacerých inštanciách. To zaisťuje, že žiadna jednotlivá inštancia nie je ohromená, čo udržiava konzistentný výkon aj za podmienok vysokého zaťaženia.

2. Škálovacie politiky: Používatelia môžu definovať politiky škálovania založené na konkrétnych metrikách, ako je napríklad využitie CPU alebo latencia žiadosti. Tieto politiky určujú, kedy sa majú rozšíriť alebo klesať. V prípade modelov Deepseek-R1 môžu bežné metriky zahŕňať latenciu koncového prvku, tokeny priepustnosti, čas do prvého tokenu a latencia medzi tokanmi.

3. Typy súbežnosti a inštancie: Modely Deepseek-R1 je možné nasadiť na rôzne typy inštancií, z ktorých každý má rôzne konfigurácie GPU (napr. 1, 4 alebo 8 GPU na inštanciu). Výber typu inštancie ovplyvňuje výkon a škálovateľnosť modelu. Výberom príslušných typov inštancií a konfiguráciou úrovne súbežnosti môžu používatelia optimalizovať reakciu a efektívnosť modelu.

proces nasadenia

Ak chcete nasadiť modely DeepSeek-R1 s automatickým rozsahom na stránkach Sagemaker, používatelia zvyčajne sledujú tieto kroky:

-Výber modelu: Vyberte príslušný variant modelu DeepSeek-R1, ako sú destilované verzie (napr. Deepseek-R1-Distill-Llama-8B), ktoré ponúkajú rovnováhu medzi výkonom a efektívnosťou.

- Konfigurácia koncového bodu: Nastavte koncový bod Sagemaker s vybraným modelom. Zahŕňa to špecifikáciu umiestnenia modelu (napr. Objímanie náboja tváre alebo súkromného vedra S3), konfiguráciu premenných prostredia a definovanie typu inštancie a počiatočného počtu inštancií.

-Konfigurácia automatického rozsahu: Definujte politiky automatického rozsahu založené na požadovaných metrikách (napr. Využitie CPU). To zaisťuje, že koncový bod dynamicky škáluje v reakcii na zmeny pracovného zaťaženia.

- Monitorovanie a optimalizácia: Neustále sledujte výkonnosť koncového bodu a upravte politiky škálovania podľa potreby na udržanie optimálneho výkonu a nákladovej efektívnosti.

Výhody automatického rozsahu pre Deepseek-R1

- Nákladová efektívnosť: Zmenením počas období s nízkym dopytom môžu organizácie výrazne znížiť náklady spojené s prevádzkou veľkých jazykových modelov.
- Vylepšená citlivosť: Automatické škálovanie zaisťuje, že model zostáva responzívny aj za podmienok vysokého zaťaženia, čím sa zvyšuje užívateľská skúsenosť.
- Zjednodušené riadenie: Spravovaná infraštruktúra Sagemaker zjednodušuje proces nasadenia a škálovania, čo vývojárom umožňuje zamerať sa skôr na vývoj modelu a integráciu aplikácií ako na správu infraštruktúry.

Celkovo poskytuje automatické rozsahy modelov Deepseek-R1 na Sagemaker robustný a efektívny spôsob nasadenia pokročilých jazykových modelov, čo zabezpečuje, že dokážu zvládnuť rôzne pracovné zaťaženie a zároveň udržiavať vysoký výkon a nákladovú efektívnosť.

Citácie:
[1] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distille-models-on-on-amazon-sagemaker-using-using-a-large-model-inference-container/
[2] https://blogs.cisco.com/security/evaluating-security- riSk-in-deepseek-and-other-other-frontier-reasoning-models
[3] https://repost.aws/questions?View=all&sort=Recent&page=EJ2IJOYLCJUIJOIMXFKULBZBGFWOTBZ QxfGAKL5NZBXUT09IIWIDCI6ILFJBXDXDXDLPTBTBTRGZKKZKVPRJLWSSTZSTZASSTZALIKALIVÁLY
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distille-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?View=all&sort=Recent&page=eyj2ijoylcjUijoiqup4cuorys9pt29q AehntJH6NDY0DZ09IIIWIDCI6InnVCunVCunVRMFIMFQ0OTLUC1V5MKFAWJPWMJVTHLKOFJMTRXD3YVYZRTCMC9IN0
[7] https://www.oneclickitsolution.com/centerofExcellence/aiml/deploy-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-on-aws-bedrock/
[9] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leverging-deepseek-r1-on-aws?lang=en