Разбивка стоимости настройки и развертывания моделей DeepSeek-R1 на AWS

Настройка моделей DeepSeek-R1 включает в себя несколько компонентов затрат, особенно при развертывании их на таких платформах, как Amazon Web Services (AWS). Вот подробный разбил затрат, связанные с настройкой и развертыванием моделей DeepSeek-R1:

1. Затраты на обучение: первоначальная стоимость обучения DeepSeek-R1 значительно ниже по сравнению с другими моделями, такими как CHATGPT O1. DeepSeek-R1, по оценкам, составляет от 6 миллионов долларов, что в 16 до 33 раза дешевле, чем CHATGPT O1 [3]. Тем не менее, эта стоимость для первоначальной разработки и обучения модели, а не для настройки.

2. Настройка и развертывание на AWS: при настройке моделей DeepSeek-R1 с использованием функции импорта Amazon Bedrock на заказ, есть несколько затрат, которые следует рассмотреть:
- Затраты на вывод: они основаны на количестве активных модельных копий и продолжительности их активности. Цены на пользовательскую модель модели (CMU) варьируются в зависимости от таких факторов, как архитектура и регион. Например, цена на CMU в минуту составляет 0,0785 долл. США [4].
- Затраты на хранение: ежемесячная стоимость хранения на CMU, которая составляет 1,95 долл. США [4]. Количество требуемых CMU зависит от архитектуры модели и длины контекста.

3. Пример Расчет затрат: для модели DeepSeek-R1-Distill-Llama-8B, требующей 2 CMU, если модель активна в течение 1 часа в день, ежедневная стоимость вывода составляет приблизительно 9,42 долл. США. За месяц это составляет 282,60 долл. США для вывода и 3,90 долл. США для хранения, что привело к общей предполагаемой ежемесячной стоимости 286,50 долл. США [4].

4. Ценообразование по требованию для моделей DeepSeek: на AWS цена по требованию для моделей DeepSeek, таких как DeepSeek R-1, составляет 0,00135 долл. США на 1000 входных токенов и 0,0054 долл. США на 1000 выходных токенов [8]. Эта модель ценообразования полезна для приложений, которые требуют гибкого использования без долгосрочных обязательств.

Таким образом, настройка моделей DeepSeek-R1 включает в себя затраты, связанные с развертыванием модели и использованием на платформах, таких как AWS, с конкретными сбоями за вывод и хранение на основе пользовательских модельных единиц. Первоначальная стоимость обучения модели значительно ниже, чем сопоставимые модели, что делает ее экономически эффективным вариантом для приложений для искусственного интеллекта.

Цитаты:
[1] https://api-docs.deepseek.com/quick_start/pricing
[2] https://www.together.ai/models/deepseek-r1
[3] https://www.creolestudios.com/deepseek-vs-chatgpt-cost-comparison/
[4] https://repost.aws/questions/qu-hcixrtfsasokh8gl-koga/pring-model-of-deepseek-r1-distild-lama-models-with-amazon-bedrock-custom-model-import
[5] https://community.intel.com/t5/blogs/tech-innovation/artificial-intelligence-ai/discover-the-power-of-deepseek-r1-a-cost-effivert-ai-model/post/1655557
[6] https://team-gpt.com/blog/deepseek-pricing/
[7] https://www.reddit.com/r/machinelearning/comments/1icfbll/d_deepseek_distillation_and_training_costs/
[8] https://aws.amazon.com/bedrock/pricing/

Какова стоимость настройки моделей DeepSeek-R1