O corte de peso é uma técnica originalmente introduzida em Wasserstein Gans (WGANs) para aplicar a restrição de continuidade de Lipschitz exigida pela métrica de distância de Wasserstein. Embora tenha simplicidade computacional e algum sucesso inicial, o corte de peso nos WGANs apresenta vários problemas notáveis que afetam a estabilidade do treinamento, a capacidade do modelo e o desempenho geral.
Um dos principais problemas com o corte de peso é que ele atua como uma restrição difícil nos pesos do modelo, truncando -os dentro de um intervalo fixo. Essa operação restritiva influencia o crítico (discriminador em Gans tradicionais) para aprender funções excessivamente simples, limitando sua capacidade de modelar distribuições de dados complexas de maneira eficaz. Os pesos das forças de recorte para permanecer em uma caixa pequena, o que geralmente leva o crítico a não capturar momentos de ordem superior e detalhes mais delicados dos dados. Essa restrição pode fazer com que a função do crítico se torne simplista demais para estimar com precisão a distância de Wasserstein, essencial para o treinamento estável de GaN.
Outra questão relacionada é o treinamento da instabilidade causada pelo recorte de peso. O intervalo de recorte precisa ser cuidadosamente ajustado: se estiver muito grande, a restrição de Lipschitz será inadequadamente aplicada, potencialmente levando a treinamento instável e colapso do modo; Se definido muito pequeno, os gradientes podem desaparecer ou se tornarem pequenos demais para atualizações eficazes, prejudicando o aprendizado do modelo. Os gradientes de desaparecimento geralmente ocorrem quando os pesos críticos são presos a valores excessivamente baixos, especialmente em arquiteturas com redes profundas, sem normalização em lote ou componentes recorrentes. Esse problema de fuga de gradiente surge porque os pesos do discriminador são restringidos a uma faixa estreita, reduzindo a capacidade do crítico de fornecer feedback significativo ao gerador durante o treinamento.
O corte de peso também leva a distribuições de peso patológico. Empiricamente, muitos pesos críticos tendem a se acumular nos limites da faixa de recorte, o que restringe a expressividade e a diversidade dos pesos aprendidos. Esse efeito de saturação dificulta a otimização porque as atualizações do gradiente empurram os pesos em direção a limites de corte repetidamente, causando exploração ineficiente de parâmetros e convergência mais lenta. Além disso, o corte de peso distorce o cenário de otimização, o que significa que os gradientes e a superfície geral de perda de crítica se tornam menos suaves e mais difíceis de navegar com métodos baseados em gradiente.
Devido a esses problemas, o corte de peso pode dificultar o treino de arquiteturas críticas muito profundas de maneira confiável. A restrição difícil imposta pelo recorte não é bem escala para arquiteturas de rede maiores e mais complexas. Observa -se que, mesmo com técnicas comuns como a normalização do lote dentro do crítico, os críticos profundos do WGAN geralmente lutam para convergir quando o corte de peso é aplicado. Essas limitações reduzem a flexibilidade e capacidade do modelo ao modelar distribuições complexas de dados do mundo real, geralmente resultando em baixa qualidade da amostra ou treinamento com falha.
Os artigos WGAN originais e os trabalhos subsequentes reconheceram que o recorte de peso pode levar a um comportamento indesejado no treinamento, especialmente para conjuntos de dados de alta dimensão ou complexo. O método pode causar o colapso do crítico a funções mais simples, reduzindo a qualidade e a diversidade de amostras geradas. Algumas pesquisas apontam que o corte de peso influencia o crítico em relação a funções com gradientes constantes ou norma gradiente substancialmente reduzida, o que contradiz a restrição ideal de Lipschitz de ter uma norma gradiente perto de uma em quase todos os lugares.
Para abordar essas desvantagens, foram propostas alternativas ao corte de peso, principalmente o método de penalidade de gradiente (WGAN-GP). Ao contrário do recorte duro, a penalidade de gradiente impõe uma restrição suave, penalizando o desvio da norma de gradiente de um, o que incentiva as funções críticas mais suaves e realistas. Essa penalidade é adicionada como um termo extra na função de perda, evitando o confinamento rígido dos pesos e permitindo uma aprendizagem crítica mais estável e expressiva. As abordagens baseadas em penalidade de gradiente melhoram significativamente a estabilidade do treinamento, a qualidade da amostra e a velocidade de convergência em comparação com o corte de peso.
Em resumo, os principais problemas com o corte de peso nos WGANs incluem:
- Uma restrição difícil que limita a complexidade crítica, levando a discriminadores excessivamente simples.
- Instabilidade do treinamento da seleção inadequada de alcance de recorte, causando grauções de desaparecimento ou explosão.
- Distribuições de peso patológico com muitos pesos saturando nos limites de recorte.
- Otimização ineficiente devido a paisagens de perdas distorcidas e informações de gradiente.
- Problemas de baixa escalabilidade e convergência com arquiteturas críticas profundas.
- menor qualidade das amostras geradas ao modelar dados complexos.
- Expressividade limitada geral e falha em manter a continuidade adequada de Lipschitz de maneira flexível.