DeepSeek, быстро растущий китайский стартап ИИ, использует несколько стратегий для эффективного управления крупномасштабными запросами токена, особенно благодаря своей последней модели, DeepSeek-V3. Эта модель использует архитектуру смеси экспертов (MOE), которая позволяет избирательно активировать подмножество параметров для каждого обработанного токена. В частности, DeepSeek-V3 имеет в общей сложности 671 миллиард параметров, но только 37 миллиардов активируются для каждого токена во время вывода. Эта конструкция значительно повышает эффективность вычислительной техники по сравнению с традиционными плотными моделями, где все параметры вовлечены для каждого запроса [1] [4].
Для дальнейшей оптимизации производительности DeepSeek-V3 реализует эффективную стратегию балансировки нагрузки на протяжении всего процессов обучения и вывода. Этот подход гарантирует, что ни один токены не сброшены во время любой фазы. Модель сохраняет хороший баланс нагрузки, используя ограниченный механизм маршрутизации, который ограничивает затраты на связь и позволяет почти полное перекрытие коммуникации. В результате DeepSeek-V3 может обрабатывать высокие объемы запросов токенов, не жертвуя производительностью или надежностью [2] [4].
С точки зрения обучения, DeepSeek-V3 предварительно обучен на обширном наборе данных, включающем 14,8 триллиона токенов, за которыми следуют стадии контролируемой точной настройки и подкрепления обучения для уточнения своих возможностей. Процесс обучения предназначен для стабильного и эффективного, заполняя менее чем за два месяца, общая стоимость примерно 5,576 млн. Долл. США в часы графических процессоров [1] [2]. Это эффективное использование ресурсов позволяет DeepSeek эффективно масштабироваться, одновременно управляя крупномасштабными запросами токенов по всем его услугам.
В целом, инновационная архитектура и стратегические подходы DeepSeek позволяют эффективно выполнять его эффективные запросы токенов, делая его конкурентоспособным игроком в ландшафте искусственного интеллекта.
Цитаты:
[1] https://thehackernews.com/2025/01/top-rated-chineese-ai-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3.]
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explained-everything-you-need-to-conge
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-large-cale-cyberattack-says-its-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place