GPT-4.5 Utbildningsdata och övervakningstekniker

Vilka specifika datasätt användes för att träna GPT-4.5

GPT-4.5 utbildades på en mångfaldig uppsättning datasätt, inklusive en blandning av allmänt tillgängliga data, äganderätt från datapartnerskap och anpassade datasätt utvecklade internt. Dessa datasätt bidrar kollektivt till modellens robusta konversationsfunktioner och världskunskap. Specifika detaljer om de exakta datasätten som används nämns emellertid inte uttryckligen i tillgänglig information.

Träningsprocessen involverade nya övervakningstekniker i kombination med traditionella metoder som övervakad finjustering (SFT) och förstärkningslärande från mänsklig feedback (RLHF), liknande de som används för GPT-4O [1] [3]. Modellens utveckling inkluderade också skalbara justeringstekniker, där mindre modeller genererar högkvalitativa träningsdata för större modeller, vilket förbättrar modellens styrbarhet och förståelse för nyans [7].

OpenAI: s databehandlingsrörledning inkluderar rigorös filtrering för att upprätthålla datakvalitet och mildra potentiella risker. De använder avancerade datafiltreringsprocesser för att minska behandlingen av personlig information när de utbildar sina modeller. Dessutom använder de en kombination av deras moderation API och säkerhetsklassificerare för att förhindra användning av skadligt eller känsligt innehåll [1].

Medan de exakta datasätten inte är detaljerade, betonar tillvägagångssättet en bred och mångfaldig datafundament för att stödja GPT-4.5: s kapacitet i uppgifter som att skriva, programmera och lösa praktiska problem med färre hallucinationer [1] [3].

Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-leases-gpt-4-5
[4] https://www.chatbase.co/blog/gpt-5
[5] https://www.wired.com/story/openai-gpt-45/
]
[7] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[8] https://arxiv.org/html/2404.07840v1