Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kā mīkstā aktiera-kritiena apmācības laiks salīdzina ar DQN Openai sporta zāles vidē


Kā mīkstā aktiera-kritiena apmācības laiks salīdzina ar DQN Openai sporta zāles vidē


Apmācības laika salīdzinājums starp mīksto aktieru-kritisko (SAC) un dziļo Q tīklu (DQN) Openai sporta zāles vidē ir atkarīgs no vairākiem faktoriem, ieskaitot vides raksturu, stāvokļa un darbības telpu sarežģītību, kā arī no algoritmiskajām atšķirībām starp SAC un DQN.

Mīkstais aktieris-kritisks (SAC) ir ārpuspolicijas algoritms, kas optimizē stohastisko politiku, izmantojot maksimālo entropijas pastiprināšanas mācīšanos, kuras mērķis ir maksimāli palielināt gan paredzamo atdevi, gan politikas entropiju, veicinot izpēti. SAC ir paredzēts, lai labi darbotos nepārtrauktās darbības telpās. Parasti tajā tiek izmantotas divas Q funkcijas (lai samazinātu pārvērtēšanas novirzi), stohastisku aktieri un temperatūras parametru, kas pielāgo kompromisu starp izpēti un izmantošanu. SAC atjaunina politikas un vērtības tīklus, pamatojoties uz partijām, kas atlasītas no atkārtošanas bufera, un parasti funkciju tuvināšanai izmanto neironu tīklus ar starpposma slāņiem. Apmācības atjauninājumi ietver atpakaļizplatīšanas darbības, kas atjaunina tīkla svarus katru fiksēto darbību skaitu. SAC ir pazīstams ar savu stabilo mācīšanos un noturību, bet raksturīgā sarežģītība un divu Q tīklu izmantošana kopā ar stohastisko politiku bieži nozīmē, ka SAC ir nepieciešami vairāk skaitļošanas piepūle uz vienu soli nekā vienkāršāki algoritmi.

No otras puses, DQN ir ārpuspolicijas metode, kas galvenokārt paredzēta diskrētām darbības telpām. Tas tuvina darbības un vērtības funkciju q (s, a) ar neironu tīklu un izmanto pieredzes atkārtošanu un mērķa tīklus, lai stabilizētu apmācību. DQN aģents izvēlas darbības, maksimāli palielinot Q vērtības un atjauninot savu Q tīklu, samazinot laika starpības zaudējumu, izmantojot mini partijas no atkārtošanas bufera ar fiksētiem intervāliem apmācības laikā. Salīdzinot ar SAC, DQN parasti ir vienkāršāka arhitektūra, jo tā ir saistīta tikai ar vienu Q tīklu un deterministisku politiku, kas iegūta no Q vērtībām.

Attiecībā uz apmācības laiku pētījumi un eksperimenti, par kuriem ziņo praktiķi un pētījumi, norāda, ka:

1. DQN bieži ir ātrāks katrā apmācības posmā nekā SAC, pateicoties vienkāršākai arhitektūrai ** Â Tiek apmācīts tikai viens Q tīkla darbs, un politika ir determinēta, tāpēc tam ir nepieciešams mazāk aprēķinu nekā stohastiskajiem politikas atjauninājumiem un vairākiem tīkliem SAC. Parasti tas nozīmē zemāku sienas pulksteņa laiku uz DQN iterāciju.

2. Tomēr SAC bieži prasa vairāk datu un apmācības soļu, lai sasniegtu salīdzināmu veiktspēju, jo īpaši vidē ar nepārtrauktām darbības vietām, kur DQN nav piemērojams vai mazāk efektīvs. SAC gūst labumu no labākas izpētes, izmantojot entropijas maksimizēšanu, kas var pagarināt apmācības laiku, bet noved pie spēcīgākas politikas.

3. Diskrētās darbības vidē, kas pieejama Openai sporta zālē, DQN bieži var pārspēt SAC sākotnējā mācīšanās ātruma ziņā, pateicoties tās vienkāršākai politikai un ātrākai vērtībai. Bet SAC veiktspēja parasti ir labāka sarežģītā vidē, īpaši nepārtrauktā, kur paraugu ņemšanas efektivitāte un politikas noturība ir kritiska.

4. Saskaņā ar dažiem salīdzinošajiem ziņojumiem DQN vienkāršākais apmācības cauruļvads un mazāk tīkla atjauninājumu vienā solī nozīmē, ka tas bieži pabeidz apmācību mazāk sienas pulksteņa laikā, salīdzinot ar SAC, ja abi tiek piemēroti diskrētiem darbības uzdevumiem. SAC apmācības laiks ir ilgāks, aprēķinot vairāku tīklu gradientu aprēķināšanu, temperatūras pielāgošanu entropijai un paraugu ņemšanu no atkārtošanas buferiem, kuriem var būt nepieciešami lielāki partijas izmēri.

5. Pētniecības dokumenti un ieviešana rāda, ka SAC apmācības sesijas tādās vidēs kā Reacher-V2 (nepārtraukta vadības Openai sporta vides vide) mēdz ievērojami ilgāk aprēķināšanas laikā, salīdzinot ar DQN, tiek veikti diskrēti uzdevumi, piemēram, Atari Games vai Cartpole, jo SAC trenē gan politikas, gan vērtību tīklus vairāk uz vienu iterāciju.

6. Empīriskie etaloni parāda, ka tādās vidēs kā Openai Gym Mujoco nepārtrauktie vadības uzdevumi tiek doti SAC, neskatoties uz ilgāku apmācības laiku, jo tas sasniedz augstākas kvalitātes politiku un labāku vispārinājumu. Turpretī vienkāršākai diskrētai vadības videi DQN bieži trenējas ātrāk un ātrāk sasniedz pieņemamu sniegumu, jo tā ir vienkāršība.

Rezumējot, par Openai sporta zāles vidi:
- DQN parasti ir ātrāks, lai trenētos uz vienu soli, un diskrētām darbības telpām nepieciešami mazāk skaitļošanas resursu.
- SAC prasa ilgāku apmācības laiku, pateicoties diviem divkāršajiem Q-tīkliem, stohastiskām politikas mācībām un entropijas maksimizēšanai, bet bieži dod spēcīgāku politiku, īpaši nepārtrauktās darbības jomās.
-SAC var būt nepieciešami vairāk apmācības pakāpienu un sienas pulksteņa laika nekā DQN, ja to piemēro salīdzināmai videi, bet tas sasniedz labāku politikas noturību un izpētes kompromisus.
- Izvēle starp abiem ir atkarīga no vides īpašībām (nepārtrauktām pret diskrētām darbībām), vēlamo politikas noturību un skaitļošanas budžetu.

Tādējādi mīkstā aktiera-kritikas apmācības laiks parasti ir ilgāks nekā DQN Openai sporta zāles vidē, jo īpaši tāpēc, ka SAC izmanto sarežģītākas arhitektūras, prasa vairāk aprēķinu par atjauninājumu, un tas ir pielāgots nepārtrauktām darbības telpām, kur izpēte tiek uzlabota, maksimizējot entropiju. DQN ir skaitļošanas ziņā lētāks un tādējādi ātrāks tipiskos diskrētās darbības vingrošanas uzdevumos, taču tas var būt zemāks, ja ir nepieciešama pastāvīga kontrole vai augsta politikas noturība.