GPT-4.5 Précision dans le dépannage et les comparaisons de performance

Comment la précision de GPT-4.5 sur le dépannage des questions compare-t-elle à celle de GPT-4O et O1

La précision de GPT-4.5 sur les questions de dépannage, en particulier dans des domaines complexes comme le dépannage multimodal et la virologie, n'est pas explicitement détaillé dans les informations disponibles. Cependant, GPT-4.5 a montré des améliorations dans certaines zones par rapport à ses prédécesseurs. Par exemple, il fonctionne mieux dans la reconnaissance des modèles et les connexions de dessin, ce qui pourrait potentiellement améliorer ses capacités de dépannage [5].

En termes d'évaluations spécifiques, le GPT-4.5 fonctionne généralement à égalité avec GPT-4O et O1 pour refuser une teneur dangereuse et dans certaines évaluations liées à la sécurité [1] [4]. Cependant, en ce qui concerne la précision pour répondre aux questions, GPT-4.5 a montré des améliorations significatives dans certains ensembles de données. Par exemple, dans l'ensemble de données PERSONQA, qui évalue les hallucinations et la précision, GPT-4.5 atteint une précision de 0,78 et un taux d'hallucination de 0,19, surpassant GPT-4O et O1 [1] [4].

Dans les évaluations d'équité et de biais, GPT-4.5 fonctionne de manière similaire à GPT-4O mais est surperformée par O1 en fournissant des réponses impartiales à des questions sans ambiguïté [1] [4]. Alors que GPT-4.5 a démontré des améliorations dans la gestion des messages contradictoires et l'adhésion aux instructions de sécurité, sa précision globale dans le dépannage des questions n'est pas directement comparée à GPT-4O et O1 dans les données disponibles [1] [4].

En général, la capacité de GPT-4.5 à reconnaître les modèles et à dessiner des connexions peut améliorer ses performances dans les tâches de dépannage, mais les comparaisons spécifiques dans ce domaine sont limitées. Les observateurs de l'industrie ont noté des améliorations dans certaines tâches, telles que l'extraction des données, où GPT-4.5 surpasse le GPT-4O en extrayant plus précisément les champs [7]. Cependant, des comparaisons détaillées spécifiquement pour les questions de dépannage ne sont pas fournies dans les informations disponibles.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_relenty_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7Eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdff
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comprison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-destion-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991