DeepSeek R1, хоча вдосконалена модель можливостей міркувань демонструє кілька обмежень у своїх багатозадачних можливостях. Ось виявлені ключові обмеження:
Загальні обмеження можливостей
Виступ DeepSeek R1 у багатозадачній кількості не є настільки надійним, як його попередник, DeepSeek V3, особливо у складних завдань, таких як дзвінок на функції, багатопідробні взаємодії та вихід JSON. Це вказує на те, що, хоча він може впоратися з різними завданнями, його ефективність знижується в більш складних сценаріях, що потребують стійких міркувань у декількох кроках або контекстах [1].проблеми змішування мови
Модель в першу чергу оптимізована для англійської та китайської мови, що може призвести до змішування мови при обробці запитів на інших мовах. Це призводить до виходів, які можуть не узгоджуватись із очікуваннями користувача або передбачуваною мовою запиту, тим самим ускладнюючи його зручність для широкої аудиторії [1] [4].чутливість до спонукання
DeepSeek R1 демонструє високу чутливість до структури підказок. Він погано працює за допомогою методів, що спонукають до декількох знімків, які часто погіршують його якість виходу. Натомість рекомендується використовувати нульовий удар, що спонукає з чіткими та стислими інструкціями для оптимальної продуктивності. Ця чутливість може перешкоджати його адаптивності в різних завданнях та входах користувачів [2] [8].Проблеми з ефективністю
Модель стикається з проблемами, пов’язаними з ефективністю під час процесів підсилення (RL), особливо в завданнях інженерії програмного забезпечення. Через тривалі часи оцінки, пов'язані з тренуванням RL, DeepSeek R1 не перевершив попередні моделі в цьому домені. Очікується, що майбутні вдосконалення вирішуватимуть ці проблеми з ефективністю за допомогою таких методів, як відбір проб та асинхронних оцінок [1] [7].Якість виведення та глибина міркувань
У той час як DeepSeek R1 використовує ланцюг мислення, який дозволяє рефлексивно міркувати, це іноді може призвести до багатослівних та захаращених результатів. Модель може боротися із підтримкою узгодженості під час складного вирішення проблем, що призводить до виходу, які відчувають себе нестабільними або не обумовленими. Ця характеристика може погіршити ясність та корисність її відповідей [2] [3].Підсумовуючи це, хоча DeepSeek R1 являє собою значне просування в можливостях міркувань для великих мовних моделей, його багатозадачні здібності обмежуються проблемами, пов'язаними з обробкою складності, обробкою мови, швидкою чутливістю, ефективністю в конкретних областях та когерентністю виходу.
Цитати:[1] https://arxiv.org/html/2501.12948v1
[2] https://www.qodo.ai/blog/qodo-gen-adds-self-hosted-support-for-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1i7fjqm/deepseek_r1_is_unusable_imho/
[4] https://www.hindustantimes.com/world-news/us-news/deepseek-ai-chinas-deepkeek-r1-low-data-digital-assistant-impact-wall-street-technology-market-global -101737978272938.html
[5] https://github.com/deepseek-ai/deepseek-r1/issues/26
[6] https://www.linkedin.com/pulse/deepseek-revolutionalizing-ai-open-source-resoning-20-ramachandran-xakme
[7] https://adasci.org/mastering-llms-rasoning-capability-teepseek-r1/
[8] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[9] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it