GPT-4.5 a été formé sur un ensemble diversifié d'ensembles de données, y compris un mélange de données accessibles au public, des données propriétaires provenant de partenariats de données et des ensembles de données personnalisés développés en interne. Ces ensembles de données contribuent collectivement aux capacités de conversation robustes du modèle et aux connaissances mondiales. Cependant, des détails spécifiques sur les ensembles de données exacts utilisés ne sont pas explicitement mentionnés dans les informations disponibles.
Le processus de formation impliquait de nouvelles techniques de supervision combinées à des méthodes traditionnelles telles que le réglage fin supervisé (SFT) et l'apprentissage du renforcement de la rétroaction humaine (RLHF), similaires à ceux utilisés pour GPT-4O [1] [3]. Le développement du modèle comprenait également des techniques d'alignement évolutives, où les modèles plus petits génèrent des données d'entraînement de haute qualité pour des modèles plus grands, améliorant la direction et la compréhension du modèle de la nuance [7].
Le pipeline de traitement des données d'OpenAI comprend un filtrage rigoureux pour maintenir la qualité des données et atténuer les risques potentiels. Ils utilisent des processus avancés de filtrage de données pour réduire le traitement des informations personnelles lors de la formation de leurs modèles. De plus, ils utilisent une combinaison de leur API de modération et de leurs classificateurs de sécurité pour empêcher l'utilisation d'un contenu nocif ou sensible [1].
Bien que les ensembles de données exacts ne soient pas détaillés, l'approche met l'accent sur une base de données large et diversifiée pour soutenir les capacités de GPT-4.5 dans des tâches telles que l'écriture, la programmation et la résolution de problèmes pratiques avec moins d'hallucinations [1] [3].
Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://towardsdatascience.com/what-gpt-4-brings-to-the-ai-table-74e392a32ac3/
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.chatbase.co/blog/gpt-5
[5] https://www.wired.com/story/openai-gpt-45/
[6] https://www.datacamp.com/blog/everything-we-know-about-gpt-5
[7] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[8] https://arxiv.org/html/2404.07840v1