Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Comment l'APE se compare-t-il aux invites de conception humaine en termes de performance


Comment l'APE se compare-t-il aux invites de conception humaine en termes de performance


L'ingénierie invite automatique (APE) est une méthode développée pour générer et sélectionner automatiquement les instructions en langage naturel (invites) pour les modèles de langage de grands (LLM) pour améliorer les performances de la tâche. Il traite l'instruction comme un "programme" à optimiser en recherchant un pool de candidats d'instruction générés par un LLM, visant à maximiser une fonction de score choisie pour une tâche spécifique. Les performances de l'instruction sélectionnée sont ensuite évaluées en l'appliquant à des tâches zéro shot avec un autre LLM. Cette approche contraste avec l'ingénierie rapide traditionnelle, où les invites sont fabriquées manuellement par les humains.

Il a été démontré que l'APE surpasse les invites de référence LLM antérieures par une marge significative et obtiennent des performances meilleures ou comparables aux instructions générées par l'homme à travers plusieurs repères. Par exemple, les expériences démontrent que l'APE surpasse les invites à la conduite humaine sur toutes les mesures, y compris la véracité et l'information sur les tâches définies. Dans un ensemble de 24 tâches d'induction d'instructions et 21 tâches organisées par les gros bancs, les invites générées par les singes étaient meilleures ou comparables aux invites humaines dans 19 et 17 tâches respectivement, indiquant une forte généralisation et une cohérence des performances.

Le processus d'APE consiste à générer un ensemble diversifié d'invites de candidats basées sur des exemples initiaux de sortie d'entrée, suivis par la notation de ces candidats en fonction de leur efficacité sur la tâche. Cela comprend souvent une évaluation automatisée de l'exactitude, de l'informativité ou de la véracité. Les candidats au-dessus de certains critères sont sélectionnés pour un raffinement supplémentaire dans un processus itératif, le modèle de langue générant des versions améliorées d'invites basées sur la rétroaction des performances antérieures. Ce raffinement itératif permet notamment à APE de découvrir de meilleures invites à la chaîne de pensées zéro que les invites standard en matière de conception humaine comme "PENSEZ STAP PAR STEP".

L'approche automatique de l'APE offre plusieurs avantages pratiques par rapport à l'ingénierie rapide:

- Il réduit considérablement le temps et la main-d'œuvre impliqués dans la création rapide, avec des rapports de réduction jusqu'à 70% des cycles de développement, accélérant le déploiement des applications d'IA.
- La précision des réponses de l'IA peut être améliorée jusqu'à 35% sur des invites fabriquées manuellement en raison de tests et de raffinement approfondis.
- Les taux d'erreur dans les sorties d'IA diminuent d'environ 45%, améliorant la fiabilité.
- Avantages de l'efficacité de la formation car les singes peuvent générer des données de formation synthétiques qui accélèrent l'apprentissage du modèle, en particulier la valeur dans les domaines spécialisés ou de scarce de données.
- Il fournit une personnalisation élevée et une adaptabilité à divers cas d'utilisation, adaptant automatiquement les stratégies de génération rapide à des tâches spécifiques sans nécessiter une expertise humaine.
- La cohérence de la qualité et de la sortie rapides est assurée par des processus de génération d'invite systématiques et reproductibles, réduisant la dépendance à l'intuition ou aux compétences individuelles humaines.

La comparaison de l'APE avec d'autres méthodes de guidage rapides illustre ses avantages uniques. La génération de la récupération (RAG) combine la récupération et la génération, mais s'appuie toujours sur l'ingénierie rapide manuelle. Le réglage fin modifie les paramètres du modèle avec les données du domaine mais nécessite de grands ensembles de données et des ressources de calcul. L'ingénierie prompte manuelle permet la flexibilité mais prend du temps et incohérente, tandis que l'APE automatise la création et le raffinement rapides, combinant l'évolutivité avec l'adaptabilité de l'ingénierie rapide.

Les analyses qualitatives montrent que les instructions générées par les singes ont tendance à se spécialiser selon les dimensions de la véracité et de l'informativité, réalisant des compromis paréto-optimaux qui dépassent les invites typiques de l'homme. Cela suggère que l'APE peut guider les LLM non seulement à une précision améliorée, mais aussi vers des caractéristiques de sortie nuancées adaptées aux besoins d'application. Il peut également prétendre les invites de singes optimisées aux configurations d'apprentissage à quelques coups, améliorant les performances d'apprentissage globales.

Malgré ses avantages, APE a certaines limites par rapport aux approches manuelles. Le processus de recherche itératif pour l'optimisation peut être intensif en calcul et nécessiter des ressources supplémentaires. Les performances efficaces dépendent fortement de la qualité de la fonction de notation utilisée pour évaluer les invites des candidats, et les résultats peuvent varier avec différents domaines ou modèles de tâches. Le transfert d'instructions croisées, où les instructions générées pour un modèle sont appliquées à une autre, est limitée, nécessitant un accord spécifique à la tâche des invites pour de meilleurs résultats.

En résumé, les principales différences de performance entre les invites de l'APE et de la conception humaine sont:

- L'APE génère systématiquement et affine des invites à optimiser les performances sur diverses tâches, conduisant à des résultats meilleurs ou comparables sur de nombreuses mesures d'évaluation, notamment la précision, la véracité et l'information.
- Les invites humaines peuvent être incohérentes et nécessiter des efforts d'experts; APE automatise ces processus, ce qui permet d'économiser du temps tout en améliorant la précision.
- L'APE est plus adaptable à toutes les tâches sans refonte manuelle, les instructions d'adaptation efficacement.
- Le compromis est en augmentation du coût de calcul et en un besoin potentiel d'optimisation de score spécifique à la tâche.
- L'APE a été démontré comme un outil pratique pour améliorer les paradigmes invitant à un coup nulle, à quelques tirs et à la chaîne de pensées, dépassant souvent les invites de base traditionnelles en matière de conception humaine.

Ainsi, APE représente un progrès significatif dans l'ingénierie rapide, fournissant une génération rapide automatisée, évolutive et plus performante qui rivalise ou dépasse l'expertise humaine dans un large éventail de tâches linguistiques. Son développement indique une tendance vers la conception d'interaction plus autonome et optimisée pour les modèles de grands langues.