L'optimisation bayésienne et la recherche de grille sont deux approches distinctes utilisées pour le réglage de l'hyperparamètre dans la traduction de machine neuronale (NMT) et d'autres modèles d'apprentissage automatique. Comprendre leurs différences, leurs avantages, leurs inconvénients et leurs contextes de performance met en lumière leur aptitude et leur efficacité respectives pour les systèmes NMT.
La recherche de grille est une approche méthodique et brute-force du réglage de l'hyperparamètre. Il fonctionne en énumérant de manière exhaustive des combinaisons d'hyperparamètres sur une grille de valeurs définies par l'utilisateur, puis à la formation et à la validation du modèle sur chaque combinaison pour trouver l'ensemble qui donne les meilleures performances. Le processus consiste à construire une grille finie compte tenu de toutes les valeurs discrètes pour chaque hyperparamètre et de rechercher de manière exhaustive chaque tuple possible. Bien que simple et facile à paralléliser, la limitation clé de la recherche de grille réside dans ses dépenses de calcul, d'autant plus que le nombre d'hyperparamètres et leurs valeurs de candidat augmentent. L'espace de recherche se développe de façon exponentielle, ce qui rend la recherche de grille impraticable pour les modèles avec des espaces hyperparamètres à haute dimension ou des procédures de formation coûteuses. La recherche de grille évalue également les hyperparamètres indépendamment des évaluations passées, ce qui signifie qu'elle ne tire pas des informations acquises pendant le processus de réglage sur les zones prometteuses de l'espace hyperparamètre, conduisant à une exploration inefficace.
L'optimisation bayésienne, en revanche, adopte une approche adaptative et probabiliste du réglage de l'hyperparamètre. Il est conçu pour trouver efficacement des hyperparamètres optimaux en modélisant la fonction objectif (par exemple, perte ou précision de validation) comme une fonction stochastique et en sélectionnant de manière itérative des valeurs d'hyperparamètre qui équilibrent l'exploration et l'exploitation via un modèle de substitution, généralement un processus gaussien. Ce modèle prédit le paysage de performance des hyperparamètres, permettant à l'algorithme de se concentrer sur les régions les plus prometteuses, en sautant des zones moins fructueuses. En utilisant les résultats de l'évaluation antérieurs et les estimations d'incertitude, l'optimisation bayésienne peut converger vers des hyperparamètres très performants dans beaucoup moins d'itérations que la recherche de grille, économisant ainsi des ressources de calcul.
Dans le contexte de la NMT, qui implique souvent des modèles complexes tels que des architectures de transformateurs profonds, le réglage de nombreux hyperparamètres est essentiel pour atteindre les performances de pointe. Ces hyperparamètres peuvent inclure des planifications de taux d'apprentissage, des taux d'abandon, un nombre de couches, des tailles d'intégration, des tailles de lots, des algorithmes d'optimisation, etc. En raison de l'immensité de cet espace hyperparamètre et du coût de calcul élevé de la formation des modèles NMT, la recherche de grille devient irréalisable car elle nécessite une évaluation exhaustive sur une explosion combinatoire d'ensembles d'hyperparamètre. Le temps et le coût pour former des centaines ou des milliers de modèles NMT, comme l'exige la recherche de grille dépasser les limites pratiques de ressources.
L'optimisation bayésienne offre des avantages pratiques clairs dans le réglage de l'hyperparamètre NMT. Sa nature adaptative concentre efficacement les efforts de recherche sur les combinaisons prometteuses, réduisant le nombre de formations de modèle complètes nécessaires. Cela est particulièrement bénéfique dans le NMT car chaque course d'entraînement peut prendre des heures ou des jours sur un matériel puissant. De plus, l'optimisation bayésienne peut gérer des hyperparamètres continus et discrets, permettant une exploration plus fine des paramètres de réglage à valeur réel tels que les taux de désintégration du taux d'apprentissage, tandis que la recherche de grille est limitée aux valeurs discrètes pré-spécifiées.
Les comparaisons empiriques dans les domaines de réglage des hyperparamètres montrent que l'optimisation bayésienne trouve généralement des configurations d'hyperparamètre optimales ou presque optimales avec cinq à sept fois moins d'évaluations de fonctions par rapport à la recherche sur la grille. Il converge également plus rapidement vers de bons hyperparamètres et se stabilise autour d'un optimal de manière plus fiable. Bien que la recherche sur la grille garantit une recherche approfondie de la grille spécifiée, elle ne garantit pas une solution globalement optimale en dehors de cette grille ou entre des points sur la grille, que l'optimisation bayésienne peut explorer plus flexible par la modélisation.
Pratiquement, si le modèle NMT et l'ensemble de données sont relativement faibles ou si les ressources de calcul ne sont pas une préoccupation majeure, la recherche de grille pourrait toujours être utilisée en raison de sa simplicité et de sa facilité d'implémentation. Il est également bénéfique pour les expériences initiales lorsque l'espace hyperparamètre est petit et que les valeurs candidates discrètes sont connues a priori. Cependant, pour les systèmes NMT de pointe où les modèles sont grands et le temps de formation est substantiel, l'optimisation bayésienne est souvent la méthode préférée car elle équilibre la qualité d'optimisation avec l'efficacité des ressources.
Dans la mise en œuvre, la recherche de grille est largement prise en charge par les bibliothèques d'apprentissage automatique avec des interfaces simples pour définir les grilles de paramètres et la validation croisée automatisée, ce qui le rend accessible aux praticiens. Il existe également des outils d'optimisation bayésienne, bien qu'ils nécessitent plus d'expertise pour mettre en place des modèles de substitution et des fonctions d'acquisition. Certains cadres spécifiquement adaptés à l'optimisation bayésienne peuvent automatiser une grande partie du processus, offrant une intégration facile, mais elles sont moins omniprésentes que les utilitaires de recherche de grille.
En résumé, l'optimisation bayésienne dépasse la recherche sur la grille dans l'efficacité et l'évolutivité du réglage de l'hyperparamètre dans NMT, en particulier en tant que complexité du modèle et augmentation de la dimensionnalité de l'hyperparamètre. Il réduit le nombre de suites de formation requises en apprenant des évaluations antérieures et en concentrant la recherche sur les régions prometteuses. La recherche de grille, bien que conceptuellement simple et exhaustive dans sa grille, devient prohibitive par calcul pour la NMT à grande échelle et manque d'adaptabilité. Le choix entre les deux méthodes dépend des compromis parmi les ressources de calcul disponibles, de la taille et de la complexité du modèle et de la familiarité avec les techniques d'optimisation, avec l'optimisation bayésienne généralement favorisée pour les projets NMT modernes et à forte intensité de ressources en raison de son approche de recherche plus intelligente et de sa convergence plus rapide à des hyperparamètres optimaux.