Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jak se doba tréninku měkkých herců-kritiků ve srovnání s DQN v prostředí OpenAI v tělocvičně


Jak se doba tréninku měkkých herců-kritiků ve srovnání s DQN v prostředí OpenAI v tělocvičně


Porovnání času tréninku mezi měkkými hereckými kritickými (SAC) a hlubokou q-sítí (DQN) v prostředí OpenAI v tělocvičně závisí na několika faktorech, včetně povahy prostředí, složitosti státu a akčních prostorů a algoritmických rozdílů mezi SAC a DQN.

Měkký herec-kritický (SAC) je algoritmus mimo politiku, který optimalizuje stochastickou politiku pomocí maximální entropické zesílení učení, jehož cílem je maximalizovat očekávaný návrat i entropii politiky a podporuje průzkum. SAC je navržen tak, aby dobře fungoval v nepřetržitých akčních prostorech. Obvykle používá dvě Q (ke snížení nadhodnocení zkreslení), stochastický herec a teplotní parametr, který upravuje kompromis mezi průzkumem a vykořisťováním. SAC aktualizuje sítě zásad a hodnot založené na dávkách vzorkovaných z vyrovnávací paměti přehrávání a obvykle používá neuronové sítě se středními vrstvami pro aproximaci funkce. Aktualizace školení zahrnují kroky backpropagace, které aktualizují síť váží každý pevný počet kroků. SAC je známý pro své stabilní učení a robustnost, ale přirozená složitost a použití dvou q-networks spolu se stochastickou politikou často znamená, že SAC potřebuje více výpočetního úsilí na krok než jednodušší algoritmy.

DQN je naproti tomu metoda mimo politiku navrženou hlavně pro diskrétní akční prostory. Přibližuje funkci akční hodnoty Q (S, A) neuronovou sítí a ke stabilizaci školení používá zážitek a cílové sítě. Agent DQN vybere akce maximalizací hodnot Q a aktualizuje své q-network minimalizací dočasné rozdílové ztráty pomocí mini-dávky z vyrovnávací paměti přehrávání v pevných intervalech během tréninku. Ve srovnání se SAC má DQN obecně jednodušší architekturu, protože zahrnuje pouze jednu q-síť a deterministickou politiku odvozenou z hodnot Q.

Pokud jde o čas školení, studie a experimenty hlášené praktikujícími a výzkum naznačují, že:

1. DQN je často rychlejší na krok tréninku než SAC kvůli jeho jednodušší architektuře ** â Je pouze jediná q-síť je vyškolena a politika je deterministická, takže vyžaduje méně výpočtů než stochastické aktualizace politiky a více sítí v SAC. To se obvykle promítá do doba stěny na iteraci pro DQN.

2. SAC však často vyžaduje více dat a kroků tréninku k dosažení srovnatelného výkonu, zejména v prostředích s nepřetržitými akčními prostory, kde není DQN použitelné nebo méně efektivní. SAC těží z lepšího průzkumu prostřednictvím maximalizace entropie, což může prodloužit dobu tréninku, ale vede k robustnějším politikám.

3. v prostředí diskrétních akcí dostupných v tělocvičně OpenAI může DQN často překonat SAC, pokud jde o počáteční rychlost učení kvůli jeho jednodušší politice a rychlejšímu odhadu hodnoty. Výkon SAC se však obvykle lépe upravuje ve složitých prostředích, zejména v kontinuálních, kde je účinnost odběru vzorků a robustnost politiky kritická.

4. Podle některých srovnávacích zpráv, jednodušší tréninkové potrubí DQN a méně aktualizací sítě za krok znamená, že často dokončuje školení v menší době na stěně ve srovnání s SAC, když jsou oba aplikovány na diskrétní akční úkoly. Doba tréninku SAC je delší způsobena výpočtem gradientů pro více sítí, nastavení teploty pro entropii a vzorkování z přehrávacích vyrovnávacích pamětí, které mohou vyžadovat větší velikosti dávek.

5. Výzkumné práce a implementace ukazují, že tréninkové sezení SAC v prostředích, jako je dosah-V2 (nepřetržitý kontrolní prostředí OpenAI Gym), mají tendenci trvat výrazně déle v době výpočtu ve srovnání s DQN v diskrétních úkolech, jako jsou hry Atari nebo Cartpole, protože SAC trénuje jak politiky a hodnotové sítě, na iteraci.

6. Empirické benchmarky ilustrují, že v prostředích, jako jsou úkoly s kontinuálním kontrolou Mujoco Openai Gym, je preferován SAC navzdory delším dobám tréninku, protože dosahuje politiky vyšší kvality a lepší zobecnění. Naproti tomu pro jednodušší diskrétní kontrolní prostředí DQN často trénuje rychleji a dosahuje přijatelného výkonu rychleji kvůli jeho jednoduchosti návrhu.

Stručně řečeno, pro prostředí OpenAI Gym Environments:
- DQN je obvykle rychlejší trénovat na krok a vyžaduje méně výpočetních zdrojů pro diskrétní akční prostory.
- SAC vyžaduje delší dobu tréninku díky svým duálním q-networks, stochastické politické učení a maximalizaci entropie, ale často poskytuje silnější politiky, zejména v doménách nepřetržitých akcí.
-SAC může potřebovat více tréninkových kroků a časů na stěny než DQN, když je aplikován na srovnatelná prostředí, ale dosahuje lepší politické robustnosti a průzkumné kompromisy.
- Volba mezi těmito dvěma závisí na charakteristikách prostředí (nepřetržité vs. diskrétní akce), požadované robustnosti politiky a výpočetním rozpočtu.

Doba tréninku měkkých herců-kritiků je tedy obecně delší než DQN v prostředí OpenAI v tělocvičně, zejména proto, že SAC používá složitější architektury, vyžaduje více výpočtů na aktualizaci a je přizpůsobena pro nepřetržité akční prostory, kde je průzkum zvýšen maximalizací entropie. DQN je výpočetně levnější, a proto rychlejší v typických úkolech diskrétní akce, ale může nedostatečně výkon, kde je nutná nepřetržitá kontrola nebo vysoká politická robustnost.