A GPT-5 hallucinációs arányának csökkenését mind a képzési adatok kurátorának, mind a fejlett edzési módszertannak tulajdonítják. Az Openai nyíltan beszámolt arról, hogy a GPT-5 válaszok akár 45% -kal kevésbé lehetnek ténybeli hibákat tartalmazni, mint a GPT-4O, és fejlett "érvelési" módjával a ténybeli hibák körülbelül 80% -kal csökkennek a korábbi O3 modellhez képest. A hallucinációk elnyomása a GPT-5-ben nem egyetlen adatkészlet eredménye, hanem az adatkészlet összeszerelésének, a szűrésnek, a folyamatos edzésnek az emberi visszajelzéssel és a külső ténybeli ellenőrző erőforrások integrációjának kifinomult folyamata.
Adatminőség és kurációs stratégia
Az Openai első oszlopa a GPT-5 hallucinációkkal szemben a kibővített, magas színvonalú és kurátus adatkészletek használata. Ez azt jelenti:
- A forrásadatok valószínűbb, hogy igazolják és jó hírűek.
- Kifejezett erőfeszítéseket tesznek az ismert megbízhatatlan, elfogult vagy rosszindulatú tartalom eltávolítására vagy minimalizálására az előképzés során és az adatfrissítési ciklusok során.
-A felhasználó által biztosított adatokat szűrjük, anonimizálják és megvizsgálják a tényesség szempontjából, mielőtt beillesztik a felügyelt finomhangolás vagy jutalom modellezését.
A hallucináció kockázatának további csökkentése érdekében az OpenAI kiterjedt adattisztítási folyamatokat telepített a zajos, ellentmondásos vagy szintetikus tartalom azonosítására és kizárására, amelyek hibákat okozhatnak a modell kimeneteiben.
Az edzés utáni és megerősítés az emberi visszacsatolásból (RLHF)
Az emberi visszajelzés központi szerepet játszik a GPT-5 építészetében. A modell intenzív megerősítési tanuláson megy keresztül az emberi visszacsatolásból (RLHF), amelyben az emberi értékelők:
- A tényleges helyesség, a koherencia és a felhasználói szándékhoz való igazítás megítélése.
- Biztosítson páronkénti preferenciákat a modell nemzedékeken, jutalmazza a pontosságot és az informativitást, miközben a hallucinációkat bünteti.
- Ezek a jelek képezik a jutalommodellek alapját, amelyek tovább optimalizálják a GPT-5-et, hogy a ténylegesen helyesbítsük.
Ezenkívül az RLHF -et az automatizált tényesség -osztályosok bővítik, amelyet az emberi megítélés ellen validáltak, hogy méretezzék a hallucinációk kimutatását. Ezek az osztályosok egyaránt kvantitatív mérceként szolgálnak az értékelések során, és a folyamatos képzés egyik alkotóelemeként, lehetővé téve a nagyszabású, gyors visszacsatolási hurkokat a kizárólag emberi kommentáron túl.
Értékelési referenciaértékek és stresszvizsgálat
A hallucinációk mérésére a GPT-5 szigorúan stressz-tesztelést végez az új nyilvános és belső tényességi referenciaértékeknél, mint például a LongFact (koncepciók és tárgyak) és a FactScore (ténykereső utasítások). Az értékelési keret keményebb, nyílt végű utasításokat és hosszú formájú tartalmakat céloz meg, olyan területeket, amelyekben a hallucinációk korábban virágoztak. Az Openai szerint a "GPT-5 gondolkodás" körülbelül hatszor kevesebb hallucinációt eredményez, mint az O3-ban ezeken a feladatokon.
A GPT-5-et a valós termelési forgalomban és a speciális tesztkészletekben is értékelik, ahol közvetlenül megmérik és javítják a tudáshiányok helyes beismerésének képességét és elkerülésére. Például a modell megtagadása, hogy a nem létező eszközöket multimodális környezetben találja meg, jelentősen javult a korábbi generációkhoz képest.
Építészeti és képzési beavatkozások
Számos mélyebb beavatkozás az edzés során a cél hallucinációk:
-A gondolkodási lánc és a strukturált érvelés beépül az előzetes edzési és finomhangolási fázisokba, lehetővé téve a modell számára, hogy magyarázhatóbb és megalapozottabb kimeneteket hozzon létre, nem pedig magabiztos sejtéseket.
-A biztonságos befejezések A paradigma felváltja a régebbi elutasítás-alapú biztonsági modellt, a GPT-5 képzését hasznos, korlátozott válaszok biztosítására vagy átlátható kommunikálására korlátainak és érvelésének, amikor nem tud biztonságosan válaszolni.
-A szerszámhasználat és a visszakeresési-augnázott generáció (RAG): A GPT-5 szisztematikusan képzett a webes keresés és a külső tény-ellenőrző eszközök kiaknázására olyan lekérdezésekhez, amelyek naprakész vagy rendkívül specifikus ismereteket igényelnek. Ez drasztikusan csökkenti a homályos vagy gyorsan fejlődő alanyok hallucinációinak kockázatát.
- Sycophancy Redukció: A GPT-5 kurációs csővezetéke kifejezetten összegyűjti azokat az adatokat, amelyek célja a modellek becsapódása a „Megállapodás hibáira, a sycophance-re adott válaszokat, és ezeket az pontszámokat negatív jutalomként használja az RLHF során, közvetlenül megtámadva a„ hallucinációt a megállapodás problémájával.
valós eredmények és korlátozások
Ezen előlegek ellenére a GPT-5 nem immunis a hallucinációkkal szemben. Például:
-A komplex, nyílt végű feladatok jelentett hallucinációs aránya (olyan referenciaértékekkel mérve, mint az egyszerű minőségbiztosítás) továbbra is jelentős, különösen akkor, ha a rendszert levágják az élő tények ellenőrző eszközeitől.
- A webes kereséshez való hozzáférés jelentősen csökkenti a hibaarányokat, szemléltetve a hibrid edzés fontosságát (a statikus kurátus adatokat a visszakereséssel kombinálva) a hallucinációk moderálása során.
- Bizonyos kreatív vagy elvont kérések továbbra is kihívást jelentenek a rendszer alapvető mechanizmusaira.
Folyamatos frissítések és közösségi visszajelzések
A GPT-5 rendszerét a folyamatban lévő közösségi és a valós felhasználói adatokkal táplálják, visszacsatolási mechanizmusokkal, amelyek lehetővé teszik a felfedezett hallucinációk gyors javítását és a finomítások bevezetését mind az adatszűrés, mind a jutalom funkció kialakításában. Az Openai nyíltan elismeri a további fejlesztés szükségességét, különösen olyan magas tétű területeken, mint az egészségügyi és a törvény, ahol a hibatűrésnek minimálisnak kell lennie.
A kulcs kurációs lépéseinek összefoglalása
A szintetizáláshoz a hallucinációk csökkentése a GPT-5-ben a következő összekapcsolt folyamatokból fakad:
1. aprólékos előzetes edzés előtti adatok kiválasztása és szűrése, hangsúlyt fektetve a jó hírű adatbázisokból és a legfrissebb ténybeli tartalom fenntartására.
2. A zajos, megbízhatatlan vagy elfogult tartalom kizárása az adatkészlet összeszerelése során, amelyet automatizált és kézi felülvizsgálat erősít meg több szakaszban.
3. A megerősítés tanulás és folyamatos visszacsatolás nagyszabású emberi és automatizált osztályozáson alapul a tényesség és az igazságosság érdekében.
4. Értékelés a robusztus tényességi referenciaértékek ellen, mind statikus, mind valós világban, mérve a hallucinációk pontos sebességét és típusát különböző körülmények között.
5. Az edzés utáni beavatkozások, ideértve a biztonságosabb befejezési stratégiákat, az explicit szkofánstanulást és az erős integrációt a visszakeresési vagy szerszám-alapú ismeretekhez.
6. Az iteratív élő hangolás a termelési visszajelzésekből és a vörös-csapatból, biztosítva, hogy az új hallucinációk új szivárgásait gyorsan észleljék és kezeljék.