Modul în care GPT-5 reduce ratele de halucinație: curatarea datelor, instruirea și strategiile de feedback

Reducerea GPT-5 a ratelor de halucinație este atribuită atât metodologiilor de instruire a datelor de instruire, cât și metodologiilor avansate de formare. OpenAI a raportat în mod deschis că răspunsurile GPT-5 sunt cu până la 45% mai puțin susceptibile de a conține erori de fapt în comparație cu GPT-4O, iar cu modul său avansat de „raționament”, erorile de fapt scad cu aproximativ 80% în raport cu modelul anterior O3. Suprimarea halucinațiilor în GPT-5 nu este rezultatul unui singur set de date, ci a unui proces sofisticat de asamblare, filtrare, filtrare continuă, post-antrenament cu feedback uman și integrarea resurselor externe de verificare faptică.

Strategia de calitate și curatare a datelor

Primul pilon al lui Openai împotriva halucinațiilor în GPT-5 este utilizarea seturilor de date extinse, de înaltă calitate și curate. Acest lucru înseamnă:
- Datele sursă sunt mai probabil să fie verificate și de renume.
- Se depun eforturi explicite pentru eliminarea sau minimizarea conținutului cunoscut de încredere, părtinitoare sau rău intenționat în timpul pre-instruirii și în timpul ciclurilor de actualizare a datelor.
-Datele controlate de utilizator sunt filtrate, anonimizate și examinate pentru Facicitate înainte de includerea în reglarea fină supravegheată sau modelarea recompenselor.

Pentru a reduce în continuare riscul de halucinație, OpenAI a implementat procese extinse de curățare a datelor pentru a identifica și exclude conținut zgomotos, contradictoriu sau sintetic care ar putea induce erori în rezultatele modelului.

post-antrenament și întărire din feedback-ul uman (RLHF)

Feedback-ul uman este central în arhitectura GPT-5. Modelul suferă runde intensive de învățare de armare din feedback uman (RLHF), în care evaluatorii umani:
- Ieșiri judecători pentru corectitudinea faptului, coerența și alinierea cu intenția utilizatorului.
- Oferiți preferințe în perechi asupra generațiilor de model, a preciziei răsplătitoare și a informațiilor în timp ce penalizați halucinațiile.
- Aceste semnale constituie baza modelelor de recompense care optimizează în continuare GPT-5 pentru a prefera completările corecte din punct de vedere al faptului.

În plus, RLHF este mărit de către elevii de fapt automatizați validați împotriva judecății umane pentru a extinde detectarea halucinațiilor. Acești gradați servesc atât ca o curte cantitativă în evaluări, cât și ca o componentă a antrenamentului continuu, permițând bucle de feedback rapide și rapide, dincolo de adnotarea umană exclusivă.

Executorii de evaluare și testarea stresului

Pentru a măsura halucinațiile, GPT-5 este testat riguros de stres pe noile repere publice și interne de fapt, precum LongFact (concepte și obiecte) și Factscore (solicitări de căutare a faptelor). Cadrul de evaluare vizează prompturi mai grele, deschise și conținut de formă lungă, zone în care halucinațiile au înflorit anterior. Potrivit lui Openai, „GPT-5 Gândirea” produce de aproximativ șase ori mai puține halucinații decât O3 pentru aceste sarcini.

GPT-5 este, de asemenea, evaluat în traficul de producție din lumea reală și în seturile de teste specializate, unde capacitatea sa de a admite corect lacunele de cunoștințe și de a evita fabricarea este măsurată direct și îmbunătățită. De exemplu, refuzul modelului de a inventa active inexistente în setări multimodale s-a îmbunătățit semnificativ în comparație cu generațiile anterioare.

Intervenții de arhitectură și de antrenament

Câteva intervenții mai profunde în timpul halucinațiilor vizate de antrenament:

-Moțificarea și raționamentul structurat al lanțului de gândire sunt încorporate în faze de pre-instruire și reglare fină, permițând modelului să producă rezultate mai explicabile și fundamentate, mai degrabă decât conjecturi încrezătoare.
-Paradigma completărilor sigure înlocuiește modelul de siguranță mai vechi bazat pe refuzuri, formarea GPT-5 pentru a oferi răspunsuri utile, delimitate sau pentru a comunica transparent limitele și raționamentul său atunci când nu poate răspunde în siguranță.
-Utilizarea instrumentelor și generarea de preluare a regăsirii (RAG): GPT-5 este instruit sistematic pentru a folosi căutare pe web și instrumente externe de verificare a faptelor pentru interogări care necesită cunoștințe actualizate sau extrem de specifice. Acest lucru reduce drastic riscul de halucinații la subiecți obscuri sau cu evoluție rapidă.
- Reducerea sycophancy: conducta de curare a GPT-5 adună în mod explicit date concepute pentru a captura modele în erorile de acord, notarea de răspunsuri pentru sycophancy și utilizarea acestor scoruri ca recompensă negativă în timpul RLHF, atacând direct halucinația prin problema acordului.

Rezultate și limitări din lumea reală

În ciuda acestor progrese, GPT-5 nu este pe deplin imun la halucinații. De exemplu:
-Rata de halucinație raportată pentru sarcini complexe, deschise (măsurate prin valori de referință precum QA simplă) rămâne semnificativă, mai ales atunci când sistemul este întrerupt din instrumentele de verificare a faptelor vii.
- Accesul la căutarea web reduce considerabil ratele de eroare, ilustrând importanța antrenamentului hibrid (combinarea datelor curate statice cu regăsire) în moderarea halucinațiilor.
- Anumite solicitări creative sau abstracte continuă să conteste mecanismele de împământare ale sistemului.

Actualizări continue și feedback comunitar

Sistemul GPT-5 este alimentat în comunitatea în curs de desfășurare a comunității și a utilizatorilor reali, cu mecanisme de feedback care permit o patching rapid de halucinații descoperite și lansarea de rafinamente atât în filtrarea datelor, cât și în proiectarea funcției de recompensă. OpenAI recunoaște în mod deschis necesitatea unei îmbunătățiri suplimentare, în special în domeniile cu miză mare, cum ar fi asistența medicală și dreptul, unde toleranța la erori trebuie să fie minimă.

Rezumatul pașilor de curare cheie

Pentru a sintetiza, reducerea halucinațiilor în GPT-5 rezultă din următoarele procese interconectate:

1.. Selectarea și filtrarea datelor pre-instruire minuțioase, cu accent pe aprovizionarea din bazele de date de renume și menținerea conținutului de fapt actualizat.
2. Excluderea conținutului zgomotos, nesigur sau părtinitor în timpul asamblării setului de date, consolidat de revizuirea automată și manuală în mai multe etape.
3. Învățarea de armare și feedback continuu bazat pe gradarea umană și automatizată pe scară largă pentru fapt și veridicitate.
4. Evaluare împotriva punctelor de referință de fapt robuste, atât statice, cât și din lumea reală, măsurând rata și tipul de halucinații precise în diferite condiții.
5. Intervenții post-instruire, inclusiv strategii de finalizare mai sigure, suprimarea explicită a sycophancy și integrarea puternică cu cunoștințele bazate pe regăsire sau bazate pe instrumente.
6. Agitarea live iterativă din feedback-ul producției și echipamentele roșii, asigurând că noile scurgeri de halucinații sunt rapid detectate și abordate.

Aceste strategii marchează colectiv trecerea de la atenuarea pasivă la suprimarea halucinației active și robuste **, deși sarcina rămâne una în evoluție, necesitând vigilență, actualizări continue și deschidere a cercetării pentru a obține marje de eroare chiar mai mici în viitor.

Ce seturi de date de instruire sau pași de curare taie halucinațiile în GPT-5