Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Como o tempo de treinamento do ator sofrimento se compara ao DQN em ambientes de ginástica do Openai


Como o tempo de treinamento do ator sofrimento se compara ao DQN em ambientes de ginástica do Openai


A comparação do tempo de treinamento entre atores soft-críticos (SAC) e profunda rede Q (DQN) em ambientes de academia de abertura depende de vários fatores, incluindo a natureza do meio ambiente, a complexidade dos espaços de estado e ação e as diferenças algorítmicas entre SAC e DQN.

Soft ator-crítico (SAC) é um algoritmo fora da política que otimiza uma política estocástica usando o aprendizado máximo de reforço de entropia, que visa maximizar o retorno esperado e a entropia da política, promovendo a exploração. O SAC foi projetado para funcionar bem em espaços de ação contínua. Normalmente, emprega duas funções Q (para reduzir o viés de superestimação), um ator estocástico e um parâmetro de temperatura que ajusta a troca entre exploração e exploração. O SAC atualiza as redes de política e valor com base em lotes amostrados de um buffer de repetição e normalmente usa redes neurais com camadas intermediárias para aproximação da função. As atualizações de treinamento incluem etapas de retropropagação que atualizam a rede pesam cada número fixo de etapas. O SAC é conhecido por sua aprendizagem e robustez estáveis, mas a complexidade inerente e o uso de duas redes Q, juntamente com a política estocástica, geralmente significam que o SAC precisa de mais esforço computacional por etapa do que os algoritmos mais simples.

O DQN, por outro lado, é um método fora da política projetado principalmente para espaços de ação discretos. Aproxima-se da função de ação-valor q (s, a) por uma rede neural e usa a experiência de reprodução e as redes de destino para estabilizar o treinamento. O agente DQN seleciona ações maximizando os valores Q e atualiza sua rede Q, minimizando uma perda de diferença temporal usando mini-lotes do buffer de repetição em intervalos fixos durante o treinamento. Comparado ao SAC, o DQN geralmente possui uma arquitetura mais simples, pois envolve apenas uma rede Q e uma política determinística derivada dos valores Q.

Em relação ao tempo de treinamento, estudos e experimentos relatados por profissionais e pesquisas indicam que:

1. O DQN é frequentemente mais rápido por etapa de treinamento que o SAC devido à sua arquitetura mais simples ** apenas uma única rede Q é treinada e a política é determinística, por isso requer menos cálculos do que as atualizações de política estocástica e várias redes no SAC. Isso geralmente se traduz no tempo de encrotamento de parede inferior por iteração para o DQN.

2. No entanto, o SAC geralmente requer mais etapas de dados e treinamento para atingir o desempenho comparável, principalmente em ambientes com espaços de ação contínuos onde o DQN não é aplicável ou menos eficiente. O SAC se beneficia de uma melhor exploração via maximização da entropia, que pode prolongar o tempo de treinamento, mas leva a políticas mais robustas.

3. Em ambientes de ação discreta disponíveis no OpenAi Gym, o DQN pode superar frequentemente o SAC em termos de velocidade inicial de aprendizado devido à sua política mais simples e estimativa mais rápida do valor. Mas o desempenho do SAC normalmente escala melhor em ambientes complexos, especialmente os contínuos, onde a eficiência de amostragem e a robustez da política são críticas.

4. De acordo com alguns relatórios comparativos, o pipeline de treinamento mais simples do DQN e menos atualizações de rede por etapa significam que geralmente conclui o treinamento em menos tempo de parede em comparação com o SAC quando ambos são aplicados a tarefas de ação discreta. O tempo de treinamento do SAC é mais longo devido ao cálculo de gradientes para várias redes, ajuste de temperatura para entropia e amostragem de buffers de repetição que podem exigir tamanhos maiores de lote.

5. Os trabalhos e implementações de pesquisa mostram que as sessões de treinamento do SAC em ambientes como o Retest-V2 (um ambiente de academia de controle contínuo) tendem a durar consideravelmente mais tempo no tempo de computação em comparação com as execuções de DQN em tarefas discretas, como jogos de atari ou carrinho, porque o SAC treina as redes de políticas e valor mais intensamente por iteração.

6. Os benchmarks empíricos ilustram que, em ambientes como as tarefas de controle contínuo do Openi Gym, o SAC é preferido, apesar dos tempos de treinamento mais longos porque atinge políticas de maior qualidade e melhor generalização. Por outro lado, para ambientes de controle discreto mais simples, o DQN geralmente treina mais rápido e atinge o desempenho aceitável mais rápido devido à sua simplicidade de design.

Em resumo, para ambientes de ginástica Openai:
- O DQN é normalmente mais rápido para treinar por etapa e requer menos recursos computacionais para espaços de ação discretos.
- O SAC requer tempos de treinamento mais longos devido às suas duas redes Q, aprendizado de políticas estocásticas e maximização da entropia, mas geralmente produz políticas mais fortes, especialmente em domínios de ação contínua.
-O SAC pode precisar de mais etapas de treinamento e tempo de parede do que o DQN quando aplicado a ambientes comparáveis, mas alcança uma melhor robustez e compensações de exploração de políticas.
- A escolha entre os dois depende das características do ambiente (ações contínuas versus discretas), robustez de política desejada e orçamento computacional.

Assim, o tempo de treinamento do ator-crítico macio é geralmente maior que o DQN em ambientes de academia Openai, principalmente porque o SAC usa arquiteturas mais complexas, requer mais cálculos por atualização e é adaptado para espaços de ação contínuos onde a exploração é aprimorada pela maximização da entropia. O DQN é computacionalmente mais barato e, portanto, mais rápido em tarefas típicas de academia de ação discreta, mas pode ter um desempenho inferior ao controle contínuo ou alta robustez da política.