GPT-4.5: Une précision améliorée avec des taux d'hallucination réduits

Y a-t-il des domaines où le taux d'hallucination de GPT-4.5 est particulièrement faible

GPT-4.5, le dernier modèle d'OpenAI, démontre une réduction significative des taux d'hallucination par rapport à ses prédécesseurs. Bien qu'il montre généralement un taux d'hallucination d'environ 37%, il existe des domaines et des évaluations spécifiques où ses performances sont particulièrement meilleures.

Techniques de réduction des hallucinations

GPT-4.5 utilise de nouvelles techniques de supervision, notamment le réglage fin supervisé (SFT) et l'apprentissage du renforcement de la rétroaction humaine (RLHF), qui contribue à son taux d'hallucination inférieur [1] [3]. Ces méthodes aident à améliorer la précision et la fiabilité du modèle en veillant à ce qu'elles génèrent des informations fondées sur des données factuelles.

Performance dans des domaines spécifiques

- Évaluation PersonQA: Dans l'ensemble de données PersonQA, qui teste la capacité d'un modèle à répondre avec précision aux questions sur les personnes, GPT-4.5 montre un taux d'hallucination d'environ 19%. Ceci est inférieur à son taux global et indique que dans les domaines impliquant des informations factuelles sur les individus, GPT-4.5 fonctionne bien avec moins d'hallucinations [3].

- Tâches liées à la langue: GPT-4.5 excelle dans les tâches d'écriture et de programmation, offrant des explications détaillées et une assistance dans la résolution pratique des problèmes. Bien que les taux d'hallucination spécifiques de ces tâches ne soient pas détaillés, la reconnaissance améliorée des modèles du modèle et la base de connaissances plus large contribuent à des sorties plus précises et fiables [1] [5].

- Comparaison avec d'autres modèles: Dans certaines évaluations, telles que le modèle de raisonnement O1, le taux d'hallucination de GPT-4.5 est plus élevé (37% contre 44% pour O1). Cependant, GPT-4.5 est conçu pour des applications plus générales plutôt que des tâches de raisonnement spécialisées [5].

Dans l'ensemble, le taux d'hallucination de GPT-4.5 est particulièrement faible dans les domaines où il a été largement formé et évalué, comme dans l'ensemble de données PersonQA. Cependant, ses performances peuvent varier selon différentes tâches et évaluations, reflétant les défis en cours dans la réduction des hallucinations dans les modèles d'IA.

Citations:
[1] https://topstads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explated_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinats-and--does-not-use-specific-data-from-files-as-structed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386