Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Vilka nya justeringstekniker utvecklades för GPT-4,5


Vilka nya justeringstekniker utvecklades för GPT-4,5


För GPT-4.5 utvecklade OpenAI nya, skalbara justeringstekniker som möjliggör utbildning av större och kraftfullare modeller med hjälp av data härrörande från mindre modeller. Dessa tekniker är utformade för att förbättra modellens förmåga att förstå mänskliga behov och avsikt, vilket förbättrar dess styrbarhet, nyans och naturliga konversation.

Nyckeljusteringstekniker

1. Skalbar justering: Detta tillvägagångssätt innebär att använda mindre modeller för att generera högkvalitativa träningsdata för större modeller. Denna metod påskyndar träningsprocessen och förbättrar modellens förmåga att följa nyanserade instruktioner. Men det introducerar också risken för att förstärka fördomar eller fel som finns i de mindre modellerna [4] [5].

2. Kombination av traditionella metoder: GPT-4,5 tränades med hjälp av en kombination av nya övervakningstekniker tillsammans med traditionella metoder som övervakad finjustering (SFT) och förstärkningsinlärning från mänsklig feedback (RLHF). SFT involverar lärande från mänskliga märkt exempel, vilket är effektivt men kan vara långsamt och dyrt. RLHF rankas utgångar baserade på mänskliga preferenser, vilket ibland kan leda till överanpassning, vilket gör AI alltför försiktiga eller mindre kreativa [4] [5] [7].

3. Förbättrad förståelse av mänskliga behov: De nya anpassningsteknikerna fokuserar på att lära modellen en större förståelse för mänskliga behov och avsikt. Detta är avgörande eftersom modellerna löser mer komplexa problem och interagerar med användare på mer nyanserade sätt [1] [3] [5].

Påverkan av nya tekniker

De nya justeringsteknikerna i GPT-4.5 har resulterat i flera förbättringar:

- Naturlig interaktion: Interna testare rapporterar att GPT-4.5 känns mer naturlig och intuitiv, särskilt när det gäller att hantera känslomässigt laddade frågor. Det kan erbjuda råd, diffus frustration eller helt enkelt lyssna på användaren efter behov [1] [3].
- Estetisk intuition och kreativitet: Modellen visar starkare estetisk intuition och kreativitet, vilket gör det särskilt användbart för uppgifter som kreativt skrivande och design [1] [3].
- Minskade hallucinationer: GPT-4,5 uppvisar färre hallucinationer på grund av framsteg i oövervakat lärande, vilket förbättrar dess världsmodell noggrannhet och associerande tänkande [5] [6].

Sammantaget syftar dessa tekniker till att göra GPT-4,5 mer lyhörda, effektiva och anpassade till användarens avsikt, samtidigt som de tar upp några av de utmaningar som är förknippade med att skala stora språkmodeller.

Citeringar:
[1] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-chatgpt-4-5
[2] https://arxiv.org/html/2502.11681v2
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-leases-gpt-4-5
[4] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://www.zdnet.com/article/openai-finally- unveils-gpt-4-5-heres-what-it-can-do/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model- release
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/