Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon W jaki sposób czas treningu miękkiego aktora-krytyka porównuje się do DQN w środowiskach openai gimnastycznych


W jaki sposób czas treningu miękkiego aktora-krytyka porównuje się do DQN w środowiskach openai gimnastycznych


Porównanie czasu treningu między miękkim aktora-krytycznym (SAC) i głębokiej sieci Q (DQN) w środowiskach gimnastycznych Openai zależy od kilku czynników, w tym charakteru środowiska, złożoności stanu i przestrzeni działania oraz różnic algorytmicznych między SAC i DQN.

Soft Actor-Critic (SAC) to algorytm poza politykiem, który optymalizuje politykę stochastyczną przy użyciu maksymalnego uczenia się wzmocnienia entropii, która ma na celu zmaksymalizowanie zarówno oczekiwanego powrotu, jak i entropii polityki, promując eksplorację. SAC jest zaprojektowany do dobrej pracy w przestrzeni ciągłej akcji. Zazwyczaj stosuje dwa funkcje Q (w celu zmniejszenia uprzedzeń o przeszacowaniu), aktora stochastycznego i parametru temperatury, który dostosowuje kompromis między eksploracją a wyzyskiem. SAC aktualizuje sieci zasady i wartości oparte na partiach próbkowanych z bufora powtórki i zwykle wykorzystuje sieci neuronowe z warstwami pośrednymi do przybliżenia funkcji. Aktualizacje treningowe obejmują kroki w zakresie propagacji wstecznej, które aktualizują wagi sieciowe każda stała liczba kroków. SAC jest znany ze stabilnego uczenia się i solidności, ale nieodłączna złożoność i wykorzystanie dwóch sieci Q wraz z polityką stochastyczną często oznaczają, że SAC wymaga większego wysiłku obliczeniowego na krok niż prostsze algorytmy.

Z drugiej strony DQN to metoda poza polityka zaprojektowana głównie dla dyskretnych przestrzeni akcji. Przybliża funkcję wartości akcji Q (S, A) przez sieć neuronową i wykorzystuje powtórkę doświadczenia i sieci docelowe do stabilizacji szkolenia. Agent DQN wybiera akcje, maksymalizując wartości Q i aktualizuje swoją sieć Q, minimalizując utratę różnic czasowych za pomocą mini-partii z bufora powtórki w ustalonych odstępach czasu podczas szkolenia. W porównaniu z SAC, DQN ma na ogół prostszą architekturę, ponieważ obejmuje tylko jedną sieć Q i deterministyczną politykę pochodzącą z wartości Q.

Jeśli chodzi o czas szkolenia, badania i eksperymenty zgłoszone przez praktyków i badania wskazują, że:

1. DQN jest często szybciej na krok szkolenia niż SAC ze względu na prostszą architekturę ** Â Trening jedna sieci Q jest przeszkolona, ​​a zasady jest deterministyczne, więc wymaga mniej obliczeń niż stochastyczne aktualizacje polityki i wiele sieci w SAC. Zwykle przekłada się to na niższy czas zegaru ściany na iterację dla DQN.

2. Jednak SAC często wymaga więcej danych i kroków szkoleniowych, aby osiągnąć porównywalną wydajność, szczególnie w środowiskach z ciągłymi przestrzeniami działania, w których DQN nie ma zastosowania ani mniej wydajnego. SAC korzysta z lepszej eksploracji poprzez maksymalizację entropii, która może wydłużyć czas treningu, ale prowadzi do bardziej solidnych zasad.

3. W dyskretnych środowiskach akcji dostępnych na siłowni Openai DQN może często przewyższyć SAC pod względem początkowej prędkości uczenia się ze względu na prostszą politykę i szybszą oszacowanie wartości. Ale wydajność SAC zazwyczaj skaluje się lepiej w złożonych środowiskach, zwłaszcza ciągłych, w których wydajność próbkowania i odporność na politykę ma kluczowe znaczenie.

4. Według niektórych raportów porównawczych prostszy rurociąg treningowy DQN i mniej aktualizacji sieci na krok oznaczają, że często kończy szkolenie w mniejszym czasie zegaru ściany w porównaniu z SAC, gdy oba są stosowane do dyskretnych zadań akcji. Czas treningu SAC jest dłuższy spowodowany obliczaniem gradientów dla wielu sieci, regulacji temperatury dla entropii i pobierania próbek z buforów powtórki, które mogą wymagać większych rozmiarów partii.

5. Dokumenty badawcze i implementacje pokazują, że sesje szkoleniowe SAC w środowiskach takich jak Reacher-V2 (ciągłe środowisko Gym openai) mają tendencję do znacznie dłuższego czasu obliczeniowego w porównaniu z biegami DQN w dyskretnych zadaniach, takich jak gry Atari lub Cartpole, ponieważ SAC trenuje zarówno zasady, jak i networki wartości bardziej intensywnie na iterację.

6. Empiryczne punkty odniesienia ilustrują, że w środowiskach takich jak ciągłe zadania kontrolne Openai Gym, SAC jest preferowany pomimo dłuższych czasów treningu, ponieważ osiąga politykę wyższej jakości i lepsze uogólnienie. Natomiast w przypadku prostszych dyskretnych środowisk kontrolnych DQN często trenuje szybciej i osiąga akceptowalną wydajność szybciej ze względu na prostotę projektu.

Podsumowując, dla środowisk gimnastycznych Openai:
- DQN jest zazwyczaj szybszy do szkolenia na etapie i wymaga mniejszej liczby zasobów obliczeniowych dla dyskretnych przestrzeni działania.
- SAC wymaga dłuższych czasów treningu ze względu na podwójne Q-Networks, stochastyczne uczenie się polityki i maksymalizację entropii, ale często daje silniejsze polityki, szczególnie w domenach działań ciągłych.
-SAC może potrzebować więcej kroków szkoleniowych i czasu zegarowego niż DQN, gdy jest stosowany w porównywalnych środowiskach, ale osiąga lepszą solidność polityki i kompromisy poszukiwawcze.
- Wybór między nimi zależy od charakterystyk środowiska (działanie ciągłe vs. dyskretne), pożądanej solidności polityki i budżetu obliczeniowego.

Zatem czas treningu miękkiego aktora-krytyki jest na ogół dłuższy niż DQN w środowiskach gimnastycznych Openai, szczególnie dlatego, że SAC wykorzystuje bardziej złożone architektury, wymaga więcej obliczeń na aktualizację i jest dostosowany do ciągłej przestrzeni działania, w których eksploracja jest wzmacniana przez maksymalizację entropii. DQN jest obliczeniowo tańszy, a zatem szybciej w typowych zadaniach siłowni dyskretnej działania, ale może gorsze wyniki w przypadku, gdy konieczna jest ciągła kontrola lub wysoka zasady.