Come GPT-5 riduce i tassi di allucinazione: strategie di cura, formazione e feedback dei dati

La riduzione di GPT-5 nei tassi di allucinazione è attribuita sia alla cura dei dati di addestramento che alle metodologie di formazione avanzate. Openi ha riferito apertamente che le risposte GPT-5 sono fino al 45% in meno di probabilità di contenere errori fattuali rispetto a GPT-4O e con la sua modalità "ragionamento" avanzata, gli errori fattuali diminuiscono di circa l'80% rispetto al modello O3 precedente. La soppressione delle allucinazioni in GPT-5 non è il risultato di un singolo set di dati, ma un sofisticato processo di assemblaggio di set di dati, filtraggio, post-allenamento continuo con feedback umano e integrazione di risorse di controllo fatti esterne.

Strategia di qualità e cura dei dati

Il primo pilastro di Openai contro le allucinazioni in GPT-5 è l'uso di set di dati ampliati, di alta qualità e curati. Questo significa:
- È più probabile che i dati di origine siano verificati e affidabili.
- Vengono fatti sforzi espliciti per rimuovere o ridurre al minimo contenuti inaffidabili, distorti o dannosi durante il pre-allenamento e durante i cicli di aggiornamento dei dati.
-I dati confiniti dall'utente vengono filtrati, anonimi e esaminati per facticità prima dell'inclusione nella modellazione di messa a punto o ricompensa supervisionate.

Per ridurre ulteriormente il rischio di allucinazione, Openi ha distribuito ampi processi di pulizia dei dati per identificare ed escludere contenuti rumorosi, contraddittori o sintetici che potrebbero indurre errori nelle uscite del modello.

post-allenamento e rinforzo dal feedback umano (RLHF)

Il feedback umano è centrale nell'architettura di GPT-5. Il modello subisce intensi round di apprendimento del rinforzo dal feedback umano (RLHF), in cui i valutatori umani:
- Il giudice emette per correttezza, coerenza e allineamento fattuale con l'intenzione dell'utente.
- Fornire preferenze a coppie sulle generazioni di modelli, gratificanti accuratezza e informatività mentre penalizzano le allucinazioni.
- Questi segnali costituiscono la base per i modelli di ricompensa che ottimizzano ulteriormente GPT-5 per preferire i completamenti corretti.

Inoltre, RLHF è aumentato da alunni di statualità automatizzati convalidati contro il giudizio umano per ridimensionare il rilevamento di allucinazioni. Questi alunni servono sia come metro quantitativo nelle valutazioni sia come componente di addestramento continuo, consentendo cicli di feedback su larga scala e rapidi oltre l'annotazione solo umana.

benchmark di valutazione e stress test

Per misurare le allucinazioni, GPT-5 è rigorosamente testato dallo stress su nuovi benchmark di fattualità pubblici e interni-come Longfact (concetti e oggetti) e factcore (suggerimenti per la ricerca dei fatti). Il framework di valutazione si rivolge a istruzioni più difficili e aperte e contenuti a lungo termine, aree in cui le allucinazioni precedentemente fiorono. Secondo Openi, "GPT-5 Thinking" produce circa sei volte in meno di allucinazioni rispetto a O3 su questi compiti.

GPT-5 è anche valutato nel traffico di produzione del mondo reale e nei set di test specializzati, in cui la sua capacità di ammettere correttamente le lacune di conoscenza ed evitare le fabbriche viene misurata e migliorata direttamente. Ad esempio, il rifiuto del modello di inventare attività inesistenti in contesti multimodali è migliorato marcatamente rispetto alle generazioni precedenti.

Interventi di architettura e formazione

Diversi interventi più profondi durante le allucinazioni target di allenamento:

-Il ragionamento di spunti e strutturati a catena di prelievi sono integrati in fasi di pre-allenamento e perfezionamento, consentendo al modello di produrre output più spiegabili e radicati piuttosto che congetture sicure.
-I completamenti sicuri il paradigma sostituisce il vecchio modello di sicurezza basato sul rifiuto, la formazione GPT-5 per fornire risposte utili e limitate "o per comunicare in modo trasparente i suoi limiti e il ragionamento quando non può rispondere in modo sicuro.
-Uso degli strumenti e generazione generosa (RAG): GPT-5 è sistematicamente addestrato per sfruttare la ricerca Web e gli strumenti di controllo dei fatti esterni per le query che richiedono conoscenze aggiornate o altamente specifiche. Ciò riduce drasticamente il rischio di allucinazioni su soggetti oscuri o in rapida evoluzione.
- Riduzione della sicofania: la pipeline di cura di GPT-5 raccoglie esplicitamente i dati progettati per intrappolare i modelli in errori di accordo, segnare risposte per la sicofanità e usare questi punteggi come ricompensa negativa durante RLHF, attaccando direttamente l'allucinazione per accordo.

Risultati e limiti del mondo reale

Nonostante questi progressi, GPT-5 non è completamente immune alle allucinazioni. Ad esempio:
-Il tasso di allucinazione riportato per compiti complessi e aperti (misurati da parametri di riferimento come il QA semplice) rimane significativo, soprattutto quando il sistema viene interrotto dagli strumenti di verifica dei fatti dal vivo.
- L'accesso alla ricerca Web riduce considerevolmente i tassi di errore, illustrando l'importanza dell'allenamento ibrido (che combina i dati curati statici con il recupero) nelle allucinazioni moderatrici.
- Alcuni suggerimenti creativi o astratti continuano a sfidare i meccanismi di messa a terra del sistema.

aggiornamenti continui e feedback della comunità

Il sistema di GPT-5 è alimentato in corso comuni e dati in utente reale, con meccanismi di feedback che consentono un rapido patching delle allucinazioni scoperte e di lancio di perfezionamenti sia nella progettazione del filtraggio dei dati che della ricompensa. Openi riconosce apertamente la necessità di ulteriori miglioramenti, in particolare nei settori ad alto contenuto di poste come l'assistenza sanitaria e la legge, in cui la tolleranza agli errori deve essere minima.

Riepilogo dei passaggi della cura chiave

Per sintetizzare, la riduzione delle allucinazioni in GPT-5 deriva dai seguenti processi interconnessi:

1.
2. Esclusione di contenuti rumorosi, inaffidabili o distorti durante l'assemblaggio del set di dati, rafforzato dalla revisione automatizzata e manuale in più fasi.
3. Apprendimento di rinforzo e feedback continuo basato su una classificazione umana e automatizzata su larga scala per la fattualità e la veridicità.
4. Valutazione rispetto a benchmark di robusti fattuality, sia statici che reali, che misurano il tasso e il tipo di allucinazioni precise in varie condizioni.
5. Interventi di post-formazione, comprese strategie di completamento più sicure, soppressione della sicofanità esplicita e forte integrazione con le conoscenze di recupero o basate su strumenti.
6. Accordatura iterativa dal vivo dal feedback di produzione e dalla team rossa, garantendo rapidamente rilevate e affrontate nuove perdite di allucinazioni.

Queste strategie segnano collettivamente uno spostamento dalla mitigazione passiva alla soppressione attiva e di allucinazione ** Se il compito rimane in evoluzione, che richiede vigilanza, aggiornamenti continui e apertura della ricerca per ottenere margini di errore ancora più bassi in futuro.

Quali set di dati di formazione o fasi di cura tagliano allucinazioni in GPT-5