A késés és az áteresztőképesség optimalizálása a DeepSeek-R1 modellekhez az AWS GPU példányokon

A DeepSeek-R1 modellek késleltetésének és átviteli sebességének optimalizálása az AWS GPU példányokon számos olyan stratégiát foglal magában, amelyek kihasználják az AWS szolgáltatásokat, a hardverkonfigurációkat és a modell optimalizálását. Itt található egy részletes útmutató a teljesítmény javításához:

1. Válassza ki a megfelelő hardvert **

- Példányválasztás: Az AWS különféle GPU példányokat kínál, mint például a `ml.g5`,` ml.g6` és `ml.p4d`, mindegyik különféle GPU -típusú (például Nvidia A10G, L4, L40S és A100). A DeepSeek-R1 modellek esetében olyan példányok, mint az „ML.G6E.XLARGE” és a „ML.P4D.24XLARGE”, nagy teljesítményt mutattak erőteljes GPU-k és memóriakapacitásuk miatt [1] [4].
- GPU -szám: A GPU -k számának növekedése a példányonként jelentősen javíthatja az átviteli sebességet azáltal, hogy lehetővé teszi a modellszilítást több GPU -n keresztül. Olyan nagy modellek esetén, mint a DeepSeek-R1-Distill-LLAMA-70B, a 8 GPU-val (például `ML.G6E.48XLARGE ') alkalmazott példányokat ajánlott [4].

2. Modell optimalizálási technikák **

-Modell desztilláció: A DeepSeek-R1 desztillált verzióinak, például a DeepSeek-R1-Distill-Qwen és a Llama variánsok használata csökkentheti a számítási követelményeket, miközben fenntartja az elfogadható teljesítményt. Ezek a modellek kisebbek és hatékonyabbak, így alkalmasak az alacsonyabb kategóriájú GPU-khoz [1] [3].
- Kvantálási és vegyes pontosság: Az olyan technikák, mint a kvantálás és a vegyes pontosság (például a BFLOAT16 használata), csökkenthetik a memória használatát és javíthatják a következtetési sebességet jelentős pontossági veszteség nélkül [1].

3. AWS szolgáltatások és eszközök **

- Amazon Sagemaker: Használja ki a Sagemaker korszerűsített telepítési folyamatát a DeepSeek-R1 modellekhez. Támogatja az arcszöveg -generációs következtetés (TGI) átölelését, amely egyszerűsíti a modell tárhelyét és optimalizálását [1].
- DeepSpeed: Használja ki a mélysebességű technológiát az erőforrás -felhasználás optimalizálása érdekében az EC2 példányokon. Ez jobb teljesítményhez vezethet, kevesebb erőforrással, csökkentve a költségeket [2].

4. Skálázhatóság és párhuzamosság **

- Egyedülési beállítások: Állítsa be a párhuzamos szinteket az alkalmazás igényei alapján. A magasabb párhuzamosság növeli az áteresztőképességet, de ha nem megfelelően kezelik [4], akkor növeli a késleltetési sebességet is.
-Auto-oldás: Az AWS szolgáltatások, például az EC2 Auto Scaling vagy a Sagemaker beépített méretezési funkcióinak felhasználásával valósítást hajtson végre az AWS szolgáltatások használatával, hogy a példányszámok dinamikusan beállítsák a munkaterhelési igények alapján [6].

5. Optimalizálja a bemeneti/kimeneti műveleteket **

- Bemeneti token hossza: Értékelje meg a modellek teljesítményét, különböző bemeneti tokenhosszúsággal. A rövidebb bemenetek általában gyorsabb következtetési időket eredményeznek, míg a hosszabb bemenetek erősebb példányokat igényelhetnek [1] [4].
- Kimeneti token hossza: Hasonlóképpen, a kimeneti token hosszának beállítása befolyásolhatja a teljesítményt. Optimalizálja ezeket a paramétereket az Ön konkrét felhasználási esete alapján.

6. Költségoptimalizálás **

- Példánytípusok: Az egyenleg teljesítménye és költsége olyan példánytípusok kiválasztásával, amelyek a legjobb ár-teljesítmény arányt kínálják. Például, a G4 példányokat az AI munkaterhelések költséghatékonysága miatt figyeljük meg [2].
- Fenntartott példányok és pontpéldányok: Használjon fenntartott példányokat a kiszámítható munkaterheléshez, és pontos példányokat használjon olyan kötegelt feladatokhoz vagy feladatokhoz, amelyekben a megszakítások tolerálhatók a költségek csökkentése érdekében [3].

Ezeknek a stratégiáknak a végrehajtásával jelentősen optimalizálhatja a DeepSeek-R1 modellek késleltetését és átviteli sebességét az AWS GPU példányokon.

Idézetek:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distled-models-with-hugging-face-tgi-on-amazon-sagemaker-Ai/
[2] https://community.aws/content/2shgs4eqeekz32oozn7am5lngex/benefits-ofinstalling-deepseek-on-aws-ec2-instance?lang=en?
[3] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-lama-70b-for-fathin-in-ws-graviton4?lang=en?
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a--Large-model-inference-container/
[5] https://www.reddit.com/r/selfhosted/comments/1ibl5wr/how_much_money_would_i_need_to_run_r1_deepseek/
[6] https://community.aws/content/2siuccxq3fbz5ntfgtguuzui90y2/deepseek-r1-guide-to-running-variants-on-aws
[7] https://huggingface.co/blog/deepseek-r1-aws
[8] https://aws.amazon.com/blogs/machine-learning/deepseek-r1-model-now-aVAval-in-amazon-bedrock-marketplace-and-amazon-sagemaker-jumpstart/
[9] https://vagon.io/blog/a-step-by-step-guide-to-running-deepseek-r1-on-vagon-cloud-desktops