OpenAI 체육관 환경에서 소프트 액터 크리치 (SAC)와 DEP Q-Network (DQN)의 훈련 시간 비교는 환경의 특성, 상태 및 행동 공간의 복잡성, SAC와 DQN 간의 알고리즘 차이를 포함한 여러 요인에 달려 있습니다.
Soft Actor-Critic (SAC)은 최대 엔트로피 강화 학습을 사용하여 확률 론적 정책을 최적화하는 정책 알고리즘으로, 예상 수익률과 정책의 엔트로피를 최대화하여 탐사를 촉진하는 것을 목표로합니다. SAC는 연속 액션 공간에서 잘 작동하도록 설계되었습니다. 일반적으로 확률 론적 행위자 인 과대 평가 편향을 줄이기 위해 두 가지 Q- 기능을 사용합니다. SAC는 재생 버퍼에서 샘플링 된 배치를 기반으로 정책 및 가치 네트워크를 업데이트하며 일반적으로 기능 근사치를 위해 중간 계층이있는 신경망을 사용합니다. 교육 업데이트에는 모든 고정 된 단계마다 네트워크 가중치를 업데이트하는 역설 단계가 포함됩니다. SAC는 안정적인 학습과 견고성으로 유명하지만, 확률 적 정책과 함께 두 개의 Q- 네트워크의 고유 한 복잡성과 사용은 종종 SAC가 더 간단한 알고리즘보다 단계마다 더 많은 계산 노력이 필요하다는 것을 의미합니다.
반면에 DQN은 주로 개별 액션 공간을 위해 설계된 정책 오프 방법입니다. 신경망에 의한 액션-값 함수 Q (S, A)와 비슷하며 경험 재생 및 대상 네트워크를 사용하여 교육을 안정화시킵니다. DQN 에이전트는 Q- 값을 최대화하여 동작을 선택하고 훈련 중에 고정 된 간격으로 재생 버퍼에서 미니 배치를 사용하여 시간적 차이 손실을 최소화하여 Q- 네트워크를 업데이트합니다. SAC와 비교할 때 DQN은 일반적으로 Q- 네트워크와 Q- 값에서 파생 된 결정 론적 정책 만 포함되므로 일반적으로 더 간단한 아키텍처를 가지고 있습니다.
Regarding training time, studies and experiments reported by practitioners and research indicate that:
1. DQN은 더 간단한 아키텍처로 인해 SAC보다 훈련 단계 당 더 빠릅니다. ** Â 단일 Q- 네트워크 만 교육을 받고 정책은 결정적이므로 SAC의 확률 정책 업데이트 및 여러 네트워크보다 컴퓨터가 적습니다. 이것은 일반적으로 DQN의 반복 당 벽 클록 시간이 낮아집니다.
2. 그러나 SAC는 종종 DQN이 적용되지 않거나 효율적이지 않은 연속 액션 공간이있는 환경에서 비슷한 성능에 도달하기 위해 더 많은 데이터 및 교육 단계가 필요합니다. SAC는 엔트로피 최대화를 통한 더 나은 탐색의 이점으로 인해 훈련 시간이 길어질 수 있지만보다 강력한 정책으로 이어질 수 있습니다.
3. Openai Gym에서 이용할 수있는 개별 액션 환경에서 DQN은 더 간단한 정책과 더 빠른 가치 추정으로 인해 초기 학습 속도 측면에서 SAC를 자주 성능으로 수행 할 수 있습니다. 그러나 SAC의 성능은 일반적으로 복잡한 환경, 특히 샘플링 효율성과 정책 견고성이 중요합니다.
4. 일부 비교 보고서에 따르면, DQN의 더 간단한 교육 파이프 라인과 단계 당 네트워크 업데이트가 적은 것은 두 가지 모두가 별개의 조치 작업에 적용될 때 SAC에 비해 벽 클로크 시간의 교육을 완료하는 경우가 종종 있습니다. SAC의 훈련 시간은 여러 네트워크의 기울기 계산, 엔트로피의 온도 조정 및 더 큰 배치 크기가 필요할 수있는 재생 버퍼에서 샘플링하기 때문에 더 길다.
5. 연구 논문과 구현에 따르면 SAC는 정책과 카트 폴과 같은 개별 작업에서 DQN 실행에 비해 REACHER-V2 (지속적인 제어 OpenAi 체육관 환경)와 같은 환경에서 SAC 교육 세션이 계산 시간이 상당히 오래 지속되는 경향이 있습니다. SAC는 정책과 반복에 따라 네트워크를 더욱 양도적으로 훈련하기 때문입니다.
6. 경험적 벤치 마크는 Openai Gym의 Mujoco 연속 제어 작업과 같은 환경에서 더 높은 품질의 정책과 더 나은 일반화를 달성하기 때문에 더 긴 교육 시간에도 불구하고 SAC가 선호된다는 것을 보여줍니다. 대조적으로, 더 간단한 불연속 제어 환경의 경우 DQN은 종종 설계 단순성으로 인해 더 빠르게 훈련하고 허용 가능한 성능에 더 빠르게 도달합니다.
요약하면, OpenAi 체육관 환경 :
-DQN은 일반적으로 단계마다 훈련하는 것이 빠르며 개별 액션 공간에 대한 계산 자원이 적습니다.
-SAC는 이중 Q- 네트워크, 확률 론적 정책 학습 및 엔트로피 최대화로 인해 더 긴 교육 시간이 필요하지만 종종 지속적인 행동 영역에서 더 강력한 정책을 산출합니다.
-SAC는 비슷한 환경에 적용될 때 DQN보다 더 많은 훈련 단계와 벽 클록 시간이 필요할 수 있지만 더 나은 정책 견고성과 탐사 트레이드 오프를 달성합니다.
- 둘 사이의 선택은 환경 특성 (연속 대 이산 조치), 원하는 정책 견고성 및 계산 예산에 따라 다릅니다.