DeepSeek R1: Az érvelés forradalmasítása a megerősítés tanulásával

Hogyan javítja a DeepSeek R1 megerősítési tanulási megközelítése érvelési képességeit

A DeepSeek R1 egy új megerősítési tanulási (RL) megközelítés révén javítja érvelési képességeit, amely eltér a hagyományos felügyelt finomhangolási (SFT) módszerektől. Ez az innovatív stratégia lehetővé teszi a modell számára, hogy az érvelési készségeket önállóan és hatékonyan fejlessze.

A megerősítés tanulási kerete

A DeepSeek R1 a csoportos relatív politika optimalizálását (GRPO) alkalmazza, egy szabályalapú RL-keretrendszert, amely lehetővé teszi a modell számára, hogy a próba és a hiba miatt megtanuljon anélkül, hogy támaszkodna az előre jelölt adatkészletekre. Ez a megközelítés lehetővé teszi a modell számára, hogy egy hatalmas megoldási teret fedezzen fel, felfedezve az egyedi érvelési mintákat és stratégiákat, amelyek esetleg nem jelennek meg a felügyelt képzési adatokban [1] [2] [4]. Az RL-folyamat során az érvelés ösztönzésével a DeepSeek R1 koherens gondolkodási láncokat generálhat, és önellenőrzésben és reflexióban vehet részt, amelyek kritikusak a komplex problémamegoldás szempontjából [4].

Többlépcsős képzési folyamat

A DeepSeek R1 képzése több szakaszra oszlik:

1. hidegindítási szakasz: A modell egy kis mennyiségű, kiváló minőségű, felügyelt adatokkal kezdődik, amelyeket elődje, a DeepSeek R1-Zero összegyűjtött. Ez a fázis segít enyhíteni olyan kérdéseket, mint például a rossz olvashatóság és a nyelvkeverés, amelyeket a korábbi modellekben megfigyeltünk [1] [2].

2. érvelés-orientált RL: A hidegindítás után a modell kiterjedt érvelés-orientált RL edzésen megy keresztül. Ez a fázis a képességek fejlesztésére összpontosít olyan domainekben, mint a kódolás, a matematika és a logika, ahol egyértelmű megoldásokat lehet meghatározni a jutalmazási szabályok alapján [3] [4].

3. A finomhangolás új adatokkal: A kezdeti RL-képzés után az új felügyelt adatokat az RL ellenőrző ponton alapuló elutasító mintavétel révén generálják. Ezeket az adatokat ezután felhasználják a további finomhangoláshoz, lehetővé téve a modellnek, hogy finomítsa érvelési képességeit a különféle feladatok között [1] [2].

Teljesítmény eredményei

Ennek a szigorú edzési folyamatnak az eredménye egy olyan modell, amely olyan teljesítményszintet ér el, amely összehasonlítható a vezető modellekkel, mint például az OpenAi O1-1217 az érvelési feladatokkal. Például a DeepSeek R1 szignifikáns javulást mutatott a referenciaértékekben, az átadási arányok 15,6% -ról 71% -ra növekedtek az AIME 2024 feladatoknál, bemutatva annak fokozott érvelési képességeit [1] [2].

Összefoglalva: a DeepSeek R1 megerősítési tanulási megközelítése nemcsak a független érvelést elősegíti, hanem javítja a problémamegoldó hatékonyságot is azáltal, hogy minimalizálja a kiterjedt felügyelt adatkészletekre való támaszkodást. Ez egy hatékony eszközként helyezkedik el a nagy nyelvi modellek tájában.

Idézetek:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-mentperforming-open-a--o1-at-95 -lless-cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r--model-overview-and-how-it-tanks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-thraining-of-deepseek-r1-and-ways-touse-it