Évaluation des capacités multilingues de GPT-4.5: méthodologies et idées

Quelles méthodologies ont été utilisées pour évaluer les capacités multilingues de GPT-4.5

Pour évaluer les capacités multilingues de GPT-4.5, OpenAI a utilisé plusieurs méthodologies:

1. Traduction des ensembles de tests: OpenAI a traduit l'ensemble de tests de la référence multilingue Massive Language Comprendre (MMLU) en 14 langues en utilisant des traducteurs humains professionnels. Cette approche a permis une évaluation complète des performances de GPT-4.5 dans plusieurs langues, notamment arabe, bengali, chinois (simplifié), anglais, français, allemand, hindi, indonésien, italien, japonais, coréen, portugais (Brésil), espagnol, swahili et yoruba [1].

2. Évaluation zéro: le modèle a été testé dans un paramètre à tirs zéro, ce qui signifie qu'il n'a pas été fourni de données de formation supplémentaires ou de réglage fin pour des langues spécifiques. Cette méthode évalue la capacité du modèle à généraliser entre les langues sans formation explicite [1].

3. Comparaison avec les modèles précédents: les performances de GPT-4.5 ont été comparées à ses prédécesseurs, tels que GPT-4O et O1, pour évaluer les améliorations des capacités multilingues. Cette comparaison aide à identifier les domaines où GPT-4.5 a avancé et où il peut encore nécessiter une amélioration [1].

4. Évaluations de la sécurité: Bien que ne s’est pas concentrée exclusivement sur les capacités multilingues, les évaluations de la sécurité considèrent également la façon dont le modèle gère divers entrées linguistiques, en veillant à ce qu’elle ne génère pas un contenu nuisible ou inapproprié entre les langues [1].

5. Évaluations externes: Openai SHOWS LEVERAGE EN DÉFENSE EXTÉRIEURS Cadres externes, similaires à la plate-forme C-LARA utilisée pour évaluer le traitement multilingue de GPT-4, afin d'évaluer davantage les capacités linguistiques de GPT-4.5 [4]. Cependant, des détails spécifiques sur l'utilisation de ces plateformes pour GPT-4.5 ne sont pas fournis dans les informations disponibles.

Ces méthodologies fournissent collectivement une évaluation solide des performances multilingues de GPT-4.5, mettant en évidence ses forces et ses domaines pour une amélioration future.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_evaluate_gpt-4's_mulilingal_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/