Η αποκοπή βάρους είναι μια τεχνική που εισήχθη αρχικά στο Wasserstein Gans (WGAN) για να επιβάλει τον περιορισμό της συνέχειας του Lipschitz που απαιτείται από τη μετρική απόσταση Wasserstein. Ενώ έχει υπολογιστική απλότητα και κάποια αρχική επιτυχία, η αποκοπή βάρους σε WGAN εισάγει αρκετά αξιοσημείωτα ζητήματα που επηρεάζουν τη σταθερότητα της κατάρτισης, την ικανότητα μοντέλου και τη συνολική απόδοση.
Ένα από τα πρωταρχικά προβλήματα με την αποκοπή του βάρους είναι ότι λειτουργεί ως σκληρός περιορισμός στα βάρη του μοντέλου με την περικοπή τους μέσα σε ένα σταθερό εύρος. Αυτή η περιοριστική λειτουργία μειώνει τον κριτικό (διακρίσεις σε παραδοσιακά GANs) προς την εκμάθηση υπερβολικά απλών λειτουργιών, περιορίζοντας την ικανότητά του να μοντελοποιεί πολύπλοκες κατανομές δεδομένων. Η αποκοπή αναγκάζει τα βάρη για να παραμείνουν σε ένα μικρό κουτί, το οποίο συχνά οδηγεί στον κριτικό που δεν καταγράφει στιγμές υψηλότερης τάξης και λεπτότερες λεπτομέρειες των δεδομένων. Αυτός ο περιορισμός μπορεί να προκαλέσει τη λειτουργία του κριτικού να γίνει πολύ απλοϊκή για να εκτιμηθεί με ακρίβεια την απόσταση Wasserstein, η οποία είναι απαραίτητη για τη σταθερή εκπαίδευση GAN.
Ένα άλλο σχετικό ζήτημα είναι η αστάθεια κατάρτισης που προκαλείται από την αποκοπή βάρους. Το εύρος αποκοπής πρέπει να συντονιστεί προσεκτικά: Εάν είναι πολύ μεγάλο, ο περιορισμός Lipschitz είναι ανεπαρκώς επιβάλλεται, ενδεχομένως οδηγώντας σε ασταθή κατάρτιση και κατάρρευση του τρόπου. Εάν ορίσετε πολύ μικρές, οι κλίσεις μπορεί να εξαφανιστούν ή να γίνουν πολύ μικρές για αποτελεσματικές ενημερώσεις, μειώνοντας την εκμάθηση μοντέλων. Οι κλίσεις που εκτοξεύονται συνήθως εμφανίζονται όταν τα βάρη των κριτικών κόβονται σε υπερβολικά χαμηλές τιμές, ειδικά σε αρχιτεκτονικές με βαθιά δίκτυα, χωρίς εξομάλυνση παρτίδας ή υποτροπιάζοντα συστατικά. Αυτό το πρόβλημα εξαφάνισης κλίσης προκύπτει επειδή τα βάρη των διακριτών περιορίζονται σε ένα στενό εύρος, μειώνοντας την ικανότητα του κριτικού να παρέχει σημαντική ανατροφοδότηση στη γεννήτρια κατά τη διάρκεια της εκπαίδευσης.
Η αποκοπή βάρους οδηγεί επίσης σε παθολογικές κατανομές βάρους. Εμπειρικά, πολλά βάρη κριτικών τείνουν να συσσωρεύονται στα όρια της περιοχής αποκοπής, γεγονός που περιορίζει την εκφραστικότητα και την ποικιλομορφία των μαθησιακών βαρών. Αυτό το αποτέλεσμα κορεσμού εμποδίζει τη βελτιστοποίηση επειδή οι ενημερώσεις κλίσης πιέζουν τα βάρη προς τα όρια αποκοπής επανειλημμένα, προκαλώντας αναποτελεσματική εξερεύνηση των παραμέτρων και βραδύτερη σύγκλιση. Επιπλέον, η αποκοπή βάρους στρεβλώνει το τοπίο βελτιστοποίησης, πράγμα που σημαίνει ότι οι κλίσεις και η συνολική επιφάνεια απώλειας κριτικών γίνονται λιγότερο ομαλές και πιο δύσκολο να πλοηγηθούν με μεθόδους που βασίζονται σε κλίση.
Λόγω αυτών των ζητημάτων, η αποκοπή βάρους μπορεί να δυσχεράνει την αξιοπιστία των πολύ βαθιών αρχιτεκτονικών κριτικών. Ο σκληρός περιορισμός που επιβάλλεται από την αποκοπή δεν κλιμακώνεται καλά σε μεγαλύτερες και πιο σύνθετες αρχιτεκτονικές δικτύου. Παρατηρείται ότι ακόμη και με κοινές τεχνικές όπως η ομαλοποίηση παρτίδας μέσα στον κριτικό, οι βαθιές κριτικοί του WGAN συχνά αγωνίζονται να συγκλίνουν όταν εφαρμόζεται η αποκοπή του βάρους. Αυτοί οι περιορισμοί μειώνουν την ευελιξία και την ικανότητα του μοντέλου κατά τη μοντελοποίηση πολύπλοκων κατανομών δεδομένων πραγματικού κόσμου, συχνά με αποτέλεσμα την κακή ποιότητα του δείγματος ή την αποτυχημένη εκπαίδευση.
Τα αρχικά χαρτιά WGAN και τα επόμενα έργα έχουν αναγνωρίσει ότι η αποκοπή βάρους μπορεί να οδηγήσει σε ανεπιθύμητη συμπεριφορά στην εκπαίδευση, ειδικά για υψηλής διαστάσεως ή σύνθετα σύνολα δεδομένων. Η μέθοδος μπορεί να προκαλέσει την κατάρρευση του κριτικού σε απλούστερες λειτουργίες, μειώνοντας την ποιότητα και την ποικιλομορφία των παραγόμενων δειγμάτων. Ορισμένες έρευνες επισημαίνουν ότι η αποκοπή του βάρους προκαλεί τον κριτικό προς τις λειτουργίες με σταθερές κλίσεις ή ουσιαστικά μειωμένο κανόνα κλίσης, γεγονός που έρχεται σε αντίθεση με τον ιδανικό περιορισμό Lipschitz να έχει έναν κανόνα κλίσης κοντά σε ένα σχεδόν παντού.
Για την αντιμετώπιση αυτών των μειονεκτημάτων, έχουν προταθεί εναλλακτικές λύσεις για την αποκοπή βάρους, κυρίως τη μέθοδο ποινής κλίσης (WGAN-GP). Σε αντίθεση με την σκληρή αποκοπή, η ποινή κλίσης επιβάλλει έναν μαλακό περιορισμό, τιμωρώντας την απόκλιση του κανόνα κλίσης από έναν, γεγονός που ενθαρρύνει τις ομαλότερες και πιο ρεαλιστικές λειτουργίες κριτικών. Αυτή η ποινή προστίθεται ως επιπλέον όρος στη συνάρτηση απώλειας, αποφεύγοντας τον άκαμπτο περιορισμό των βαρών και επιτρέποντας την πιο σταθερή και εκφραστική μάθηση κριτικών. Οι προσεγγίσεις βασισμένες στην ποινή κλίσης βελτιώνουν σημαντικά τη σταθερότητα της κατάρτισης, την ποιότητα του δείγματος και την ταχύτητα σύγκλισης σε σύγκριση με την αποκοπή του βάρους.
Συνοπτικά, τα κύρια ζητήματα με την αποκοπή βάρους σε WGAN περιλαμβάνουν:
- Ένας σκληρός περιορισμός που περιορίζει την πολυπλοκότητα των κριτικών, οδηγώντας σε υπερβολικά απλούς διακριτικούς.
- Εκπαίδευση αστάθεια από την ακατάλληλη επιλογή της περιοχής αποκοπής, προκαλώντας είτε την εξαφάνιση είτε την εκρηκτική κλίση.
- Παθολογικές κατανομές βάρους με πολλά βάρη που κορεσμένα στα όρια αποκοπής.
- Αναποτελεσματική βελτιστοποίηση λόγω παραμορφωμένων τοπίων απώλειας και πληροφοριών κλίσης.
- Κακή επεκτασιμότητα και προβλήματα σύγκλισης με αρχιτεκτονικές βαθιάς κριτικής.
- χαμηλότερη ποιότητα παραγόμενων δειγμάτων κατά τη μοντελοποίηση σύνθετων δεδομένων.
- Συνολικά περιορισμένη εκφραστικότητα και αδυναμία διατήρησης της σωστής συνέχειας Lipschitz με ευέλικτο τρόπο.