For GPT-4.5 utviklet Openai nye, skalerbare justeringsteknikker som muliggjør trening av større og kraftigere modeller ved bruk av data avledet fra mindre modeller. Disse teknikkene er designet for å forbedre modellens evne til å forstå menneskelige behov og intensjoner, forbedre dens styrbarhet, nyanse og naturlige samtaleegenskaper.
Nøkkeljusteringsteknikker
1. Skalerbar justering: Denne tilnærmingen innebærer å bruke mindre modeller for å generere treningsdata av høy kvalitet for større modeller. Denne metoden fremskynder treningsprosessen og forbedrer modellens evne til å følge nyanserte instruksjoner. Imidlertid introduserer det også risikoen for å forsterke skjevheter eller feil som er til stede i de mindre modellene [4] [5].
2. Kombinasjon av tradisjonelle metoder: GPT-4.5 ble trent ved hjelp av en kombinasjon av nye tilsynsteknikker sammen med tradisjonelle metoder som overvåket finjustering (SFT) og forsterkningslæring fra menneskelig tilbakemelding (RLHF). SFT innebærer å lære av menneskemerkede eksempler, noe som er effektivt, men kan være tregt og dyrt. RLHF rangerer utganger basert på menneskelige preferanser, noe som noen ganger kan føre til overmontering, noe som gjør AI altfor forsiktig eller mindre kreativ [4] [5] [7].
3. Forbedret forståelse av menneskelige behov: De nye justeringsteknikkene fokuserer på å lære modellen en større forståelse av menneskelige behov og intensjoner. Dette er avgjørende ettersom modellene løser mer komplekse problemer og samhandler med brukere på mer nyanserte måter [1] [3] [5].
Effekt av nye teknikker
De nye justeringsteknikkene i GPT-4.5 har resultert i flere forbedringer:
- Naturlig samhandling: Interne testere rapporterer at GPT-4.5 føles mer naturlig og intuitivt, spesielt i håndteringen av følelsesladede spørsmål. Det kan tilby råd, diffus frustrasjon eller bare lytte til brukeren etter behov [1] [3].
- Estetisk intuisjon og kreativitet: Modellen viser sterkere estetisk intuisjon og kreativitet, noe som gjør den spesielt nyttig for oppgaver som kreativ skriving og design [1] [3].
- Reduserte hallusinasjoner: GPT-4.5 viser færre hallusinasjoner på grunn av fremskritt i uovervåket læring, noe som forbedrer verdensmodellens nøyaktighet og assosiativ tenking [5] [6].
Totalt sett har disse teknikkene som mål å gjøre GPT-4.5 mer responsive, effektive og på linje med brukerens intensjon, samtidig som de adresserer noen av utfordringene knyttet til skalering av store språkmodeller.
Sitasjoner:
[1] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-chatgpt-4-5
[2] https://arxiv.org/html/2502.11681v2
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-dhismodel-is
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://www.zdnet.com/article/openai-finally-unveils-gpt-4-5- Heres-what-it-can-do/
[7] https://www.theverge.com/news/620021/opena-gpt-4-5-orion-ai-model-release
[8] https://pmc.ncbi.nlm.nih.gov/articles/pmc11184879/