DeepSeek достиг высокой точности на эталоне AIME 2024, используя несколько инновационных методов:
1. Целевое образование данных обучающих данных: DeepSeek генерировал данные обучения, которые могут быть автоматически проверены, особенно в доменах, таких как математика, где правильность однозначна. Этот подход позволил им сосредоточиться на создании высококачественных, соответствующих данных, которые непосредственно способствуют повышению производительности модели [1].
2. Эффективные функции вознаграждения: они разработали высокоэффективные функции вознаграждения, разработанные для определения того, какие новые примеры обучения действительно улучшат модель. Эта стратегия помогла избежать тратить вычислительные ресурсы на избыточные данные, гарантируя, что модель извлечена из наиболее ценных примеров [1].
3. Дистилляция и оптимизация модели: DeepSeek использовал методы дистилляции модели для создания более мелких моделей, которые все еще достигли впечатляющих результатов. Например, их дистиллированная модель 7B превзошла точность более крупных моделей с открытым исходным кодом, таких как QWQ-32B-Preview, несмотря на меньшее количество параметров. Это демонстрирует, как целенаправленное обучение может привести к сильной производительности в конкретных областях со скромными вычислительными ресурсами [1].
4. Цепочки вычислений и рассуждений с временем испытания: модели DeepSeek, такие как DeepSeek R1, используют метод, называемый «Compute Tect-Compute», который позволяет модели тратить больше времени и вычислительной мощности на каждую проблему. Этот подход имитирует обдумывание, подобное человеку, что приводит к более точным и вдумчивым ответам. Поскольку модель генерирует более длинные цепочки рассуждений, она может решать все более сложные проблемы с большей точностью [6].
5. Прозрачность и многоагентная архитектура: модели DeepSeek, особенно Deepseek-R1, используют многоагентную совместную архитектуру, которая объединяет различные пути рассуждений. Эта синергия помогает смягчить специфические для задачи смещения и повышать согласованность за счет снижения изменчивости. Структурированный подход позволяет модели динамически расставлять приоритеты в решениях с высокой уверенностью, и итеративно уточняет менее определенные результаты [3].
Эти методы в совокупности способствуют впечатляющей производительности DeepSeek по эталону AIME 2024, демонстрируя, как стратегические методы обучения и дизайн модели могут превзойти необработанную вычислительную мощность в достижении высокой точности.
Цитаты:
[1] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertise-mater-mater-more-lan-compute-in -2025/
[2] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[3] https://arxiv.org/html/2503.10573v1
[4] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[5] https://aws.amazon.com/bedrock/deepseek
[6] https://smythos.com/ai-agents/agent-architectures/deepseek-r1/
[7] https://www.amitysolutions.com/blog/deepseek-r1-ai-giant-from-china
[8] https://cloudsecurityalliance.org/blog/2025/01/29/deepseek-rewriting-the-rules-of-ai-development
[9] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models