GPT-4.5 vs. GPT-4O: A hallucináció csökkentése és a pontosság összehasonlítás

Hogyan hasonlítja össze a GPT-4.5 teljesítményét a GPT-4O-val a hallucinációk szempontjából

A GPT-4.5 és a GPT-4O egyaránt az OpenAI által kifejlesztett fejlett nyelvű modellek, mindegyik külön-külön javítással rendelkezik elődeikkel szemben. Amikor összehasonlítják teljesítményüket a hallucinációk szempontjából, a GPT-4,5 szignifikáns csökkenést mutat a hallucinációs arányban a GPT-4O-hoz képest.

A hallucináció csökkentése a GPT-4.5-ben

-Hallucinációs arány: A GPT-4,5 hallucinációs aránya körülbelül 19%, ha a PersonQA adatkészleten tesztelik, ami jelentős javulást jelent a GPT-4O körülbelül 52% -os arányához képest [2] [5]. Ez a redukció azt jelzi, hogy a GPT-4.5 megbízhatóbb és kevésbé hajlamos olyan információk előállítására, amelyek nem alapulnak a ténybeli adatokban.
-Javítási technikák: A hallucinációk csökkenése a GPT-4.5-ben az új felügyeleti technikáknak tulajdonítható, a hagyományos módszerekkel, például a felügyelt finomhangolás (SFT) és az emberi visszacsatolásból származó megerősítés tanulásának (1]. Ezek a módszerek segítenek a modell ténybeli pontosságának és megbízhatóságának javításában.

Teljesítmény -összehasonlítás

-Pontosság: A PersonQA adatkészlet pontossága szempontjából a GPT-4,5 nagyobb pontosságot ér el 78%, szemben a GPT-4O 28%-ával [2] [5]. Ez azt sugallja, hogy nemcsak a GPT-4,5 hallucinátja kevésbé, hanem pontosabb válaszokat is nyújt.
- Általános megbízhatóság: Az alacsonyabb hallucinációs arány és a GPT-4,5 nagyobb pontossága megbízhatóbb választássá teszi a pontos és megbízható információkat igénylő alkalmazások számára. Mindkét modell azonban hasonlóan teljesít bizonyos értékelésekben, például a méltányosság és az elfogultság értékeléseiben [5].

Összefoglalva: a GPT-4.5 felülmúlja a GPT-4O-t a hallucináció csökkentése és pontossága szempontjából, így megbízhatóbb lehetőséget jelent a pontos és ténybeli információkhoz szükséges feladatokhoz. Mindkét modellnek azonban vannak erősségei és gyengeségei a különböző területeken és értékelések között.

Idézetek:
[1] https://topmostads.com/openai-reease-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdfffffff0f0a6c5098db
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_a_ga_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-wich-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-reease-how-try-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-t-t--consider