DeepSeek R1, в то время как расширенная модель в возможностях рассуждения, демонстрирует несколько ограничений в своих многозадачных способностях. Вот идентифицированные ключевые ограничения:
Общие ограничения возможностей
Производительность DeepSeek R1 в многозадачностью не так надежна, как его предшественник, DeepSeek V3, особенно в сложных задачах, таких как вызов функций, многократные взаимодействия и вывод JSON. Это указывает на то, что, хотя он может выполнять различные задачи, его эффективность уменьшается в более сложных сценариях, требующих устойчивых рассуждений на нескольких этапах или контекстах [1].Проблемы с микшированием языка
Модель в основном оптимизирована для английского и китайского, что может привести к смешиванию языка при обработке запросов на других языках. Это приводит к выводам, которые могут не соответствовать ожиданиям пользователя или предполагаемому языку запроса, тем самым усложняя его удобство использования для более широкой аудитории [1] [4].Чувствительность к подсказке
DeepSeek R1 демонстрирует высокую чувствительность к структуре подсказок. Он работает плохо с небольшими выстрелами методов подсказок, которые часто ухудшают качество выхода. Вместо этого рекомендуется использовать подсказку с нулевым выстрелом с четкими и краткими инструкциями для оптимальной производительности. Эта чувствительность может препятствовать его адаптации по разным задачам и пользовательским входам [2] [8].проблемы эффективности
Модель сталкивается с проблемами, связанными с эффективностью во время процессов обучения подкреплению (RL), особенно в задачах разработки программного обеспечения. Из -за длительного времени оценки, связанных с обучением RL, DeepSeek R1 значительно не превзошел предыдущие модели в этом домене. Предполагается, что будущие улучшения будут решать эти проблемы с эффективностью с помощью таких методов, как выборка отклонения и асинхронные оценки [1] [7].качество выхода и глубина рассуждения
В то время как DeepSeek R1 использует подход цепочки мышления, которая позволяет рефлексировать рассуждения, это иногда может привести к многословным и загроможденным результатам. Модель может бороться с поддержанием когерентности во время сложного решения проблем, что приводит к результатам, которые кажутся неустойчивыми или нефокусированными. Эта характеристика может отвлечь от ясности и полезности ее ответов [2] [3].Таким образом, хотя DeepSeek R1 представляет собой значительный прогресс в способностях рассуждения для моделей крупных языков, его многозадачные способности ограничены проблемами, связанными с обработкой сложности, языковой обработкой, быстрым чувствительностью, эффективностью в конкретных областях и выходом когерентности.
Цитаты:[1] https://arxiv.org/html/2501.12948v1
[2] https://www.qodo.ai/blog/qodo-gen-adds-selfed-support-for-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1i7fjqm/deepseek_r1_is_unusable_imho/
[4] https://www.hindustantimes.com/world-news/us-news/deepseek-ai-chinas-deepseek-r1-low-data-digital-sasistant-pact-wallstree-street-technology-market-global -101737978272938.html
[5] https://github.com/deepseek-ai/deepseek-r1/issues/26
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://adasci.org/mastering-llms-reaseing-capability-deepseek-r1/
[8] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[9] https://www.vellum.ai/blog/the training-of-deepseek-r1-and-way-to-use-it