Kaip GPT-5 sumažina haliucinacijos greitį: duomenų kuravimo, mokymo ir grįžtamojo ryšio strategijos

GPT-5 haliucinacijos normų sumažėjimas priskiriamas jo mokymo duomenų kuracijai ir pažangioms mokymo metodikoms. „Openai“ atvirai pranešė, kad GPT-5 atsakymai yra iki 45% mažesnė tikimybė, kad jose yra faktinių klaidų, palyginti su GPT-4O, ir, atsižvelgiant į jo pažangų „samprotavimo“ režimą, faktinių klaidų sumažėjimas maždaug 80%, palyginti su ankstesniu O3 modeliu. Haliucinacijų slopinimas GPT-5 yra ne vieno duomenų rinkinio rezultatas, o sudėtingas duomenų rinkinio surinkimo, filtravimo, nepertraukiamo po treniruotės su žmogaus atsiliepimais procesas ir išorinių faktinių tikrinimo išteklių integracija.

Duomenų kokybės ir kuravimo strategija

Pirmasis „Openai“ ramstis prieš haliucinacijas GPT-5 yra išplėstų, aukštos kokybės ir kuruojamų duomenų rinkinių naudojimas. Tai reiškia:
- Šaltinio duomenys labiau tikrinami ir patikimi.
- Įteikiamos aiškios pastangos pašalinti ar sumažinti žinomą nepatikimą, šališką ar kenksmingą turinį prieš pradedant mokymą ir per duomenų atnaujinimo ciklus.
-Prieš įtraukiant į prižiūrimą derinimą ar apdovanojimo modeliavimą, filtruojami, anoniminiai ir tikrinami dėl faktiškumo.

Siekdamas dar labiau sumažinti haliucinacijos riziką, „Openai“ įdiegė išsamius duomenų valymo procesus, kad nustatytų ir pašalintų triukšmingą, prieštaringą ar sintetinį turinį, kuris galėtų sukelti modelio išvesties klaidas.

po treniruotės ir sustiprinimas iš žmonių atsiliepimų (RLHF)

Žmonių atsiliepimai yra svarbiausi GPT-5 architektūroje. Modelis patiria intensyvius sustiprinimo raundus iš žmonių atsiliepimų (RLHF), kuriame žmonių vertintojai:
- Teisėjo išvestis dėl faktinio teisingumo, darnos ir suderinimo su vartotojo ketinimais.
- Pateikite porų parinktis modelio kartoms, naudodamiesi tikslumu ir informatyvumu, tuo pačiu baudžiant haliucinacijas.
- Šie signalai sudaro pagrindą apdovanojimų modeliams, kurie dar labiau optimizuoja GPT-5, kad būtų teikiama pirmenybė faktiškai teisingiems užpildymams.

Be to, RLHF papildo automatizuoti faktualumo greideriai, patvirtinti prieš žmogaus sprendimą, kad būtų galima nustatyti haliucinacijų aptikimą. Šie greideriai yra ir kaip kiekybinis kriterijus vertinant, ir kaip nuolatinio mokymo komponentas, įgalinantis didelio masto, greito grįžtamojo ryšio kilpas, esančias ne tik žmogaus anotacijoje.

Vertinimo etalonai ir testavimas nepalankiausiais atvejais

Norint įvertinti haliucinacijas, GPT-5 yra griežtai patikrinta naujų visuomenės ir vidinio faktualumo etalonų, tokių kaip „Longfact“ (sąvokos ir objektai) ir faktų, (faktų ieškantys raginimai). Vertinimo sistema skirta sunkiau, neterminuotiems raginimams ir ilgos formos turiniui, sritys, kuriose anksčiau klestėjo haliucinacijos. Anot „Openai“, „GPT-5 mąstymas“ atlieka maždaug šešis kartus mažiau haliucinacijų nei O3 atliekant šias užduotis.

GPT-5 taip pat vertinamas realaus pasaulio gamybos sraute ir specializuotuose bandymų rinkiniuose, kur jo sugebėjimas teisingai pripažinti žinių spragas ir išvengti gamybos yra tiesiogiai matuojami ir patobulinami. Pavyzdžiui, modelio atsisakymas išrasti neegzistuojantį turtą multimodalinėse aplinkose žymiai pagerėjo, palyginti su ankstesnėmis kartomis.

Architektūros ir mokymo intervencijos

Kelios gilesnės intervencijos treniruotės haliucinacijos metu:

-Mąstymo grandinės raginimas ir struktūruoti samprotavimai yra integruoti į išankstinio mokymo ir tikslinimo fazes, leidžiančias modeliui sukurti paaiškinamus ir pagrįstus išėjimus, o ne užtikrintai spėliones.
-Saugaus užbaigimo paradigma pakeičia senesnį saugos atsisakymą pagrįstą modelį, mokymą GPT-5, kad būtų naudingi, apriboti atsakymai arba skaidriai pranešti apie jo ribas ir samprotavimus, kai jis negali saugiai atsakyti.
-Įrankių naudojimas ir paieškos rinkinys (RAG): GPT-5 sistemingai mokomas panaudoti interneto paiešką ir išorinius faktų tikrinimo įrankius užklausas, kurioms reikia naujausių ar labai specifinių žinių. Tai drastiškai sumažina neaiškių ar greitai besikeičiančių asmenų haliucinacijų riziką.
- Sycophancy sumažinimas: „GPT-5“ kuravimo vamzdynas aiškiai renka duomenis, skirtus sugauti modelius, susijusius su susitarimo klaidomis, įvertinti atsakymus į siofanciją ir naudoti šiuos balus kaip neigiamą atlygį RLHF metu, tiesiogiai puolant haliucinaciją susitarimo problemoje.

realaus pasaulio rezultatai ir apribojimai

Nepaisant šių pažangų, GPT-5 nėra visiškai apsaugotas nuo haliucinacijų. Pavyzdžiui:
-Pateiktas sudėtingų, neterminuotų užduočių (matuojamų etalonų, tokių kaip paprastas QA), haliucinacijos greitis išlieka reikšmingas, ypač kai sistema nutraukiama nuo tiesioginių faktų tikrinimo įrankių.
- Prieiga prie žiniatinklio paieškos žymiai sumažina klaidų lygį, parodydama hibridinių mokymų svarbą (derinant statinius kuruojamus duomenis su gavimo), mažinant haliucinacijas.
- Tam tikri kūrybiniai ar abstrakčiai raginimai ir toliau meta iššūkį sistemos įžeminimo mechanizmams.

nuolatiniai atnaujinimai ir bendruomenės atsiliepimai

„GPT-5“ sistema yra maitinama nuolatiniais bendruomenės ir realaus vartotojo duomenimis, su grįžtamojo ryšio mechanizmais, leidžiančiais greitai pataisyti aptiktas haliucinacijas ir patobulinimų įdiegimą tiek duomenų filtravimo, tiek atlygio funkcijos projektavimo metu. „Openai“ atvirai pripažįsta, kad reikia tolesnio tobulėjimo, ypač tokiose didelėse srityse kaip sveikatos priežiūra ir įstatymai, kai klaidų tolerancija turi būti minimali.

Pagrindinių kuravimo žingsnių santrauka

Norint sintetinti, haliucinacijų sumažėjimas GPT-5 atsiranda dėl šių tarpusavyje susijusių procesų:

1. Kruopštus duomenų pasirinkimas ir filtravimas išankstinis išankstinis mokymo programas, pabrėžiant pirkimą iš gerbiamų duomenų bazių ir palaikant naujausią faktinį turinį.
2. Triukštaus, nepatikimo ar šališko turinio pašalinimas duomenų rinkinio surinkimo metu, sustiprintas automatine ir rankiniu būdu peržiūra keliuose etapuose.
3. Stiprinimo mokymasis ir nuolatinis grįžtamasis ryšys, pagrįstas didelio masto žmogaus ir automatizuotu faktinių ir teisingumo klasifikavimu.
4. Įvertinimas atsižvelgiant į tvirtus faktualumo etalonus, tiek statinius, tiek realaus pasaulio, matuojant tikslų haliucinacijų greitį ir tipą įvairiomis sąlygomis.
5. Intervencijos po treniruotės, įskaitant saugesnes užbaigimo strategijas, aiškų sycofancijos slopinimą ir stiprią integraciją su gavimo ar įrankiais pagrįstomis žiniomis.
6. Pakartotinis tiesioginis derinimas iš gamybos grįžtamojo ryšio ir raudonos komandos, užtikrinant, kad greitai aptiktų ir išspręsta naujų haliucinacijų nutekėjimų.

Šios strategijos bendrai žymi perėjimą nuo pasyvaus švelninimo prie aktyvaus, tvirto haliucinacijos slopinimo **, nors užduotis išlieka besivystanti, reikalaujanti budrumo, nuolatinių atnaujinimų ir tyrimų atvirumo, kad ateityje būtų dar mažesnės klaidų maržos.

Kurie treniruočių duomenų rinkiniai ar kuravimo žingsniai sumažina haliucinacijas GPT-5