La réduction des taux d'hallucination du GPT-5 est attribuée à la fois à sa conservation des données de formation et à des méthodologies de formation avancées. OpenAI a ouvertement rapporté que les réponses GPT-5 sont jusqu'à 45% moins susceptibles de contenir des erreurs factuelles par rapport à GPT-4O, et avec son mode de "raisonnement" avancé, les erreurs factuelles baissent d'environ 80% par rapport au modèle O3 précédent. La suppression des hallucinations dans GPT-5 n'est pas le résultat d'un seul ensemble de données, mais un processus sophistiqué de rassemblement de données, de filtrage, de post-formation continue avec rétroaction humaine et d'intégration des ressources de vérification factuelle externes.
Stratégie de qualité et de conservation des données
Le premier pilier d'Openai contre les hallucinations dans GPT-5 est l'utilisation d'ensembles de données élargis, de haute qualité et organisés. Cela signifie:
- Les données source sont plus susceptibles d'être vérifiées et réputées.
- Des efforts explicites sont faits pour éliminer ou minimiser le contenu connu, biaisé ou malveillant pendant les cycles de rafraîchissement pré-formation et pendant les données.
- Les données transférées par l'utilisateur sont filtrées, anonymisées et examinées pour la facticité avant l'inclusion dans une modélisation de réglage fin ou de récompense supervisée.
Pour réduire davantage le risque d'hallucination, OpenAI a déployé de vastes processus de nettoyage des données pour identifier et exclure le contenu bruyant, contradictoire ou synthétique qui pourrait induire des erreurs dans les résultats du modèle.
Post-formation et renforcement de la rétroaction humaine (RLHF)
La rétroaction humaine est centrale dans l'architecture de GPT-5. Le modèle subit des cycles intensifs d'apprentissage du renforcement de la rétroaction humaine (RLHF), dans lesquels les évaluateurs humains:
- Les résultats du juge pour l'exactitude factuelle, la cohérence et l'alignement avec l'intention de l'utilisateur.
- Fournir des préférences par paires sur les générations de modèles, la précision en récompense et l'informativité tout en pénalisant les hallucinations.
- Ces signaux constituent la base des modèles de récompense qui optimisent davantage le GPT-5 pour préférer les compléments en fait corrects.
De plus, le RLHF est augmenté par des élèves de factualité automatisés validés contre le jugement humain pour mettre à l'échelle la détection des hallucinations. Ces élèves sont à la fois un critère quantitatif dans les évaluations et comme une composante de l'entraînement continu, permettant des boucles de rétroaction à grande échelle et rapides au-delà de l'annotation uniquement humaine.
Benchmarks d'évaluation et tests de stress
Pour mesurer les hallucinations, le GPT-5 est rigoureusement testé par le stress sur les nouveaux repères publics et internes de factualité tels que Longfact (concepts et objets) et en faits (invites de recherche de faits). Le cadre d'évaluation cible des invites plus dures et ouvertes et une teneur en forme longue, les zones dans lesquelles les hallucinations ont précédemment prospéré. Selon Openai, "GPT-5 Thinking" produit environ six fois moins d'hallucinations que l'O3 sur ces tâches.
Le GPT-5 est également évalué dans le trafic de production du monde réel et les ensembles de tests spécialisés, où sa capacité à admettre correctement les lacunes de connaissances et à éviter les fabrications est directement mesurée et améliorée. Par exemple, le refus du modèle d'inventer des actifs inexistants dans des paramètres multimodaux s'est amélioré considérablement par rapport aux générations précédentes.
interventions architecturales et de formation
Plusieurs interventions plus profondes lors de la formation ciblent les hallucinations:
- Le raisonnement de la chaîne de pensées et le raisonnement structuré sont intégrés dans des phases pré-formation et affinées, permettant au modèle de produire des sorties plus explicables et ancrées plutôt que des conjectures confiantes.
- Le paradigme des compléments sûrs remplace l'ancien modèle de sécurité basé sur le refus, formant GPT-5 pour fournir des réponses utiles et délimitées ou pour communiquer de manière transparente ses limites et son raisonnement lorsqu'il ne peut pas répondre en toute sécurité.
- Génération (RAG) de l'outil et de la récupération: GPT-5 est systématiquement formé pour tirer parti de la recherche Web et des outils de vérification des faits externes pour les requêtes qui nécessitent des connaissances à jour ou très spécifiques. Cela réduit considérablement le risque d'hallucinations sur des sujets obscurs ou en évolution rapide.
- Réduction de la sycophance: le pipeline de conservation de GPT-5 rassemble explicitement des données conçues pour piéger les modèles dans les erreurs de l'accord, marquant des réponses à la sycophance et en utilisant ces scores comme une récompense négative pendant le RLHF, attaquant directement le problème de l'accord.
Résultats et limitations du monde réel
Malgré ces avancées, le GPT-5 n'est pas entièrement à l'abri des hallucinations. Par exemple:
- Le taux d'hallucination signalé pour les tâches complexes et ouvertes (mesurées par des références comme la simple QA) reste significative, en particulier lorsque le système est coupé des outils de vérification des faits en direct.
- L'accès à la recherche sur le Web réduit considérablement les taux d'erreur, illustrant l'importance de la formation hybride (combinant des données organisées statiques avec la récupération) dans les hallucinations modératrices.
- Certaines invites créatives ou abstraites continuent de remettre en question les mécanismes de mise à la terre du système.
Mises à jour continues et commentaires de la communauté
Le système de GPT-5 est alimenté en cours des données communautaires et des utilisateurs réels, avec des mécanismes de rétroaction qui permettent des correctifs rapides des hallucinations découvertes et un déploiement des raffinements dans le filtrage des données et la conception des fonctions de récompense. OpenAI reconnaît ouvertement la nécessité d'une amélioration supplémentaire, en particulier dans les domaines à enjeux élevés comme les soins de santé et le droit, où la tolérance aux erreurs doit être minime.
Résumé des étapes de la conservation des clés
Pour synthétiser, la réduction des hallucinations dans GPT-5 provient des processus interconnectés suivants:
1. Sélection et filtrage des données pré-formation méticuleuses, en mettant l'accent sur l'approvisionnement dans des bases de données réputées et le maintien d'un contenu factuel à jour.
2. Exclusion de contenu bruyant, peu fiable ou biaisé pendant l'assemblage de l'ensemble de données, renforcé par une revue automatisée et manuelle à plusieurs étapes.
3. Renforcement d'apprentissage et rétroaction continue basée sur une note humaine et automatisée à grande échelle pour la factualité et la véracité.
4. Évaluation contre des références de factualité robustes, à la fois statiques et réelles, mesurant le taux précis et le type d'hallucinations dans diverses conditions.
5. Interventions post-formation, y compris les stratégies d'achèvement plus sûres, la suppression explicite de la sycophance et une forte intégration avec des connaissances basées sur la récupération ou les outils.
6. réglage itératif en direct de la rétroaction de la production et de l'équipe rouge, garantissant que de nouvelles fuites d'hallucinations sont rapidement détectées et traitées.