Podział kosztów dostosowywania i wdrażania modeli DeepSeek-R1 na AWS

Jaki jest koszt dostosowania modeli DeepSeek-R1

Dostosowywanie modeli DeepSeek-R1 obejmuje kilka komponentów kosztów, szczególnie przy wdrażaniu ich na platformach takich jak Amazon Web Services (AWS). Oto szczegółowy podział kosztów związanych z dostosowywaniem i wdrażaniem modeli DeepSeek-R1:

1. Koszty szkolenia: początkowy koszt szkolenia Deepseek-R1 jest znacznie niższy w porównaniu z innymi modelami, takimi jak Chatgpt O1. Szacuje się, że Deepseek-R1 kosztuje od 6 milionów dolarów, czyli od 16x do 33x tańszego niż Chatgpt O1 [3]. Koszt ten dotyczy jednak wstępnego rozwoju i szkolenia modelu, a nie do dostosowywania.

2. Dostosowywanie i wdrażanie na AWS: Podczas dostosowywania modeli DeepSeek-R1 za pomocą niestandardowej funkcji importu modelu Amazon Bedrock należy wziąć pod uwagę kilka kosztów:
- Koszty wnioskowania: Opierają się one na liczbie aktywnych kopii modeli i ich czasu trwania aktywności. Ceny za niestandardową jednostkę modelu (CMU) różnią się w zależności od czynników takich jak architektura i region. Na przykład cena za CMU za minutę wynosi 0,0785 USD [4].
- Koszty przechowywania: Istnieje miesięczny koszt przechowywania CMU, który wynosi 1,95 USD [4]. Liczba wymaganych CMU zależy od architektury i długości kontekstu modelu.

3. Przykładowe obliczenia kosztów: W przypadku modelu Deepseek-R1-Distill-Lama-8B wymagającego 2 cmus, jeśli model jest aktywny przez 1 godzinę dziennie, dzienny koszt wnioskowania wynosiłby około 9,42 USD. Ponad miesiąc wynosi to do 282,60 USD na wniosek i 3,90 USD za przechowywanie, co spowodowało całkowity szacowany koszt miesięczny 286,50 USD [4].

4. Ceny na żądanie dla modeli Deepseek: W AWS cena na żądanie modeli Deepeek, takich jak Deepseek R-1 wynoszą 0,00135 USD za 1000 tokenów wejściowych i 0,0054 USD za 1000 tokenów wyjściowych [8]. Ten model cenowy jest przydatny w aplikacjach wymagających elastycznego użycia bez długoterminowych zobowiązań.

Podsumowując, dostosowywanie modeli DeepSeek-R1 wiąże się z kosztami związanymi z wdrażaniem modelu i wykorzystaniem na platformach takich jak AWS, z konkretnymi opłatami wnioskowania i przechowywania w oparciu o niestandardowe jednostki modeli. Początkowy koszt szkolenia modelu jest znacznie niższy niż porównywalne modele, co czyni go opłacalną opcją dla aplikacji AI.

Cytaty:
[1] https://api-docs.deepseek.com/quick_start/spling
[2] https://www.together.ai/models/deepseek-r1
[3] https://www.creolestudios.com/deepseek-vs-chatgpt-cost-comparison/
[4] https://repost.aws/questions/qu-hcixrtfsasokh8gl-koga/pring-model-of-deepseek-r1-distille-llama-models-with-amazon-bedrock-custom-model-import
[5] https://community.intel.com/t5/blogs/tech-innovation/artificial-intelligence-ai/discover-the-power-of-deepseek-r1-a-cost-eft-ai-model/post/1665557
[6] https://team-gpt.com/blog/deepseek-pling/
[7] https://www.reddit.com/r/machinelearning/comments/1icfbll/d_deepseek_distillation_and_training_costs/
[8] https://aws.amazon.com/bedrock/pring/