DeepSeek-R1-Zero: Fejlesztések és korlátozások az érvelésben és a teljesítményben

Melyek a DeepSeek-R1-Zero fő korlátai

DeepSeek-R1-Zero, miközben az érvelési képességek jelentős előrelépéseit mutatja be a megerősítési tanulás révén, számos figyelemre méltó korlátozással rendelkezik:

** Nyelvkeverési és koherencia -kérdések: Az egyik elsődleges kihívás a modell hajlama olyan outputokat előállítani, amelyek a nyelveket, különösen az angol és a kínai nyelveket keverik. Ez olyan válaszokat eredményez, amelyek inkoherensek vagy nehezen érthetők, különösen akkor, ha a bemeneti lekérdezés egyetlen nyelven van [1] [4].

** Rossz olvashatóság: A modell kimeneteinek olvashatósága gyakran veszélybe kerül. A felhasználók a formázással és az egyértelműséggel kapcsolatos problémákról számoltak be, megnehezítve az érvelési folyamat vagy a modell által biztosított végső válaszok követését [3] [5].

** A felügyelt finomhangolás hiánya: A DeepSeek-R1-Zero-t kezdeti felügyelt finomhangolás nélkül fejlesztették ki, ami korlátozza annak képességét, hogy teljesen polírozott és az emberhez igazodó kimeneteket generáljon. A finomítás hiánya kevésbé megbízható válaszokhoz vezethet olyan modellekhez képest, amelyek felügyelt tanulási technikákat tartalmaznak [1] [3].

** Végtelen ismétlés: A modell néha ismétlődő viselkedést mutat a válaszaiban, ami csökkentheti a kommunikáció általános felhasználói élményét és hatékonyságát [5] [7].

** A kódolási feladatok teljesítményének variabilitása: Noha a DeepSeek-R1-Zero erős teljesítményt mutat az érvelési feladatokban, rosszul teljesíti a kódolási kihívásokat, jelezve, hogy képességei nem lehetnek olyan robusztusak az összes feladat típusában [1] [2].

Ezek a korlátozások további fejlesztési erőfeszítéseket váltottak ki, amelyek a DeepSeek-R1 létrehozásához vezetnek, amelynek célja ezeknek a hiányosságoknak a felügyelt technikák beépítésével és az általános teljesítmény javításával.

Idézetek:
[1] https://www.prompthub.us/blog/deepseek-r--model-overview-and-how-it-tanks-against-openais-o1
[2] https://arxiv.org/html/2501.12948v1
[3] https://www.gocodeo.com/post/deepseek-r1-deepseek-r1-zero
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://huggingface.co/deepseek-ai/deepseek-r1-zero
[6] https://adasci.org/mastering-llms-deason capability-with-deepseek-r1/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://arxiv.org/pdf/2501.12948.pdf