Kako GPT-5 zmanjšuje stopnje halucinacije: Strategije podatkov, usposabljanje in povratne informacije

Zmanjšanje stopnje halucinacije GPT-5 se pripisuje tako njegovi kuriranju podatkov o usposabljanju kot tudi naprednih metodologijah usposabljanja. OpenAI je odkrito poročal, da odzivi GPT-5 do 45% manj verjetno vsebujejo dejanske napake v primerjavi z GPT-4O, s svojim naprednim načinom "sklepanja" pa se dejanske napake zmanjšajo za približno 80% glede na predhodni model O3. Zatiranje halucinacij v GPT-5 ni posledica enega samega nabora podatkov, temveč prefinjen postopek sestavljanja podatkovnih podatkov, filtriranja, neprekinjenega post-usposabljanja s človeškimi povratnimi informacijami in integracijo zunanjih dejanskih virov.

Strategija kakovosti in kuracije podatkov

Prvi steber OpenAI proti halucinacijam v GPT-5 je uporaba razširjenih, visokokakovostnih in kuriranih naborov podatkov. To pomeni:
- Izvorni podatki so bolj verjetno preverjeni in ugledni.
- Izrecna prizadevanja si prizadevajo za odstranjevanje ali zmanjšanje znanih nezanesljivih, pristranskih ali zlonamernih vsebin med predhodno usposabljanjem in med cikli osveževanja podatkov.
-Podatki, povezani z uporabniki, se filtrirajo, anonimizirajo in pregledajo zaradi dejavnosti pred vključitvijo v nadzorovano natančno nastavitev ali modeliranje nagrad.

Za nadaljnje zmanjšanje tveganja za halucinacijo je OpenAI uporabil obsežne procese čiščenja podatkov, da bi prepoznal in izključil hrupno, nasprotujoče si ali sintetične vsebine, ki bi lahko povzročile napake v izhodih modela.

Post-usposabljanje in okrepitev od človeških povratnih informacij (RLHF)

Človeške povratne informacije so osrednje v arhitekturi GPT-5. Model je podvržen intenzivnim krogom okrepitve iz človeških povratnih informacij (RLHF), v katerih človeški raterji:
- Izhodi presoja za dejansko pravilnost, skladnost in uskladitev z namenom uporabnika.
- Zagotovite parne nastavitve za generacije modelov, pri čemer se med kaznovanjem halucinacij nagrajujejo natančnost in informativnost.
- Ti signali so osnova za modele nagrajevanja, ki še bolj optimizirajo GPT-5, da raje dejansko pravilne dokončanja.

Poleg tega se RLHF poveča z avtomatiziranimi dejanskimi razredniki, ki so bili potrjeni proti človeški presoji, da bi spremenili odkrivanje halucinacij. Ti grederji služijo kot kvantitativno mejo v ocenah in kot sestavni del stalnega usposabljanja, ki omogočajo velike, hitre povratne zanke, ki presegajo samo človeško opombo.

Ocenjevalna merila in testiranje stresa

Za merjenje halucinacij je GPT-5 strogo testiran na novih javnih in notranjih meriloh dejavnosti, kot sta LongFact (koncepti in predmeti) in FactScore (pozivi za iskanje dejstev). Okvir za ocenjevanje cilja na močnejše, odprte pozive in vsebino z dolgimi oblikami, na območjih, na katerih so predhodno cvetele halucinacije. Kot poroča OpenAI, "GPT-5 Thinking" pri teh nalogah ustvari približno šestkrat manj halucinacij kot O3.

GPT-5 je ovrednoten tudi v proizvodnem prometu v resničnem svetu in specializiranih testnih sklopih, kjer se njegova sposobnost pravilnega sprejema vrzeli znanja in izogibanja izdelovanja neposredno meri in izboljšuje. Na primer, zavrnitev modela, da bi izumila neobstoječa sredstva v multimodalnih nastavitvah, se je v primerjavi s prejšnjimi generacijami izrazito izboljšala.

Arhitekturni in usposabljanje

Več globljih intervencij med usposabljanjem ciljnih halucinacij:

-Zagotavljanje verige in strukturiranega sklepanja so vgrajene v faze pred treningom in natančno nastavitev, kar omogoča modelu, da ustvari bolj razložljive in ozemljene izhode in ne samozavestne domneve.
-Paradigma varnih zaključkov nadomešča starejši varnostni model, ki temelji na zavrnitvi, usposablja GPT-5, da zagotovi koristne, omejene odzive ali pregledno sporočanje njegovih omejitev in sklepanja, kadar ne more varno odgovoriti.
-Uporaba orodij in generacija, ki jo je urejala z orodjem (RAG): GPT-5 je sistematično usposobljen za uporabo spletnega iskanja in zunanjih orodij za preverjanje dejstev za poizvedbe, ki zahtevajo posodobljeno ali zelo specifično znanje. To drastično zmanjša tveganje za halucinacije na nejasnih ali hitro razvijajočih se osebah.
- Zmanjšanje sikofancije: Kuracijski cevovod GPT-5 izrecno zbira podatke, ki so zasnovani za ujemanje modelov v napake v dogovoru, dosegajo odgovore za sikofast in uporabijo te ocene kot negativno nagrado med RLHF, neposredno napadajo Â halucinacijo s sporazumom.

Rezultati in omejitve v resničnem svetu

Kljub temu napredku GPT-5 ni popolnoma imun na halucinacije. Na primer:
-Poročena stopnja halucinacije za zapletene, odprte naloge (merjene z merili, kot je preprosta QA), ostaja pomembna, še posebej, če je sistem odrezan od orodij za preverjanje dejstev v živo.
- Dostop do spletnega iskanja znatno zmanjšuje stopnje napak, kar kaže na pomen hibridnega treninga (združevanje statičnih kuriranih podatkov z iskanjem) pri moderirajočih halucinacijah.
- Nekateri ustvarjalni ali abstraktni pozivi še naprej izzivajo mehanizme ozemljitve sistema.

Nenehne posodobitve in povratne informacije v skupnosti

Sistem GPT-5 se nahrani s tekočimi podatki v skupnosti in resničnih uporabnikov z mehanizmi povratnih informacij, ki omogočajo hitro popravljanje odkritih halucinacij in uvajanje izboljšav tako v filtriranju podatkov kot v zasnovi funkcij nagrajevanja. OpenAI odkrito priznava potrebo po nadaljnjem izboljšanju, zlasti na področjih visokih vložkov, kot sta zdravstveno varstvo in pravo, kjer mora biti toleranca na napake minimalna.

Povzetek ključnih korakov za kuracijo

Za sintezo se zmanjšanje halucinacij v GPT-5 izhaja iz naslednjih medsebojnih procesov:

1. natančna izbira in filtriranje podatkov pred treningom s poudarkom na pridobivanju uglednih baz podatkov in vzdrževanju posodobljene dejanske vsebine.
2. Izključitev hrupne, nezanesljive ali pristranske vsebine med sklopom nabora podatkov, okrepljena z avtomatiziranim in ročnim pregledom na več fazah.
3. Okrepljeno učenje in neprekinjene povratne informacije, ki temeljijo na obsežnem človeškem in avtomatiziranem razvrščanju za dejanskost in resničnost.
4. Ocenjevanje glede na trdne meril dejanske meril, tako statične kot v resničnem svetu, ki merijo natančno hitrost in vrsto halucinacij v različnih pogojih.
5. Po intervencijah po usposabljanju, vključno z varnejšimi strategijami dokončanja, eksplicitnim zatiranjem sikofacije in močnim integracijo z znanjem o iskanju ali orodju.
6. Iterativno uglaševanje v živo iz povratnih informacij proizvodnje in rdečega zapisa, ki zagotavljajo, da se hitro odkrijejo in obravnavajo nove puščave halucinacij.

Te strategije skupaj označujejo premik od pasivnega ublažitve na aktivno, močno zatiranje halucinacije ** Â Čeprav naloga ostaja razvijajoča se, zahteva budnost, nenehne posodobitve in odprtost raziskav, da bi v prihodnosti dosegli še nižje stopnje napak.

Kateri nabori podatkov o usposabljanju ali koraki za kuracijo so v GPT-5 zmanjšali halucinacije