GPT-4.5: Förbättrad noggrannhet med reducerade hallucinationshastigheter

Finns det några domäner där GPT-4,5: s hallucinationshastighet är särskilt låg

GPT-4.5, den senaste modellen från OpenAI, visar en betydande minskning av hallucinationsnivåerna jämfört med dess föregångare. Även om det i allmänhet visar en hallucinationshastighet på cirka 37%, finns det specifika domäner och utvärderingar där dess prestanda är särskilt bättre.

Hallucinationstekniker

GPT-4.5 använder nya övervakningstekniker, inklusive övervakad finjustering (SFT) och förstärkningslärande från mänsklig feedback (RLHF), som bidrar till dess lägre hallucinationshastighet [1] [3]. Dessa metoder hjälper till att förbättra modellens noggrannhet och tillförlitlighet genom att säkerställa att den genererar information som är grundad i faktiska data.

Prestanda i specifika domäner

- PersonQA-utvärdering: I PersonQA-datasättet, som testar modellens förmåga att svara på frågor om människor exakt, visar GPT-4,5 en hallucinationshastighet på cirka 19%. Detta är lägre än den totala hastigheten och indikerar att GPT-4,5 i domäner som involverar faktainformation om individer fungerar bra med färre hallucinationer [3].

-Språkrelaterade uppgifter: GPT-4.5 utmärker sig skriftliga och programmeringsuppgifter, och erbjuder detaljerade förklaringar och hjälp i praktisk problemlösning. Även om specifika hallucinationshastigheter för dessa uppgifter inte är detaljerade, bidrar modellens förbättrade mönsterigenkänning och bredare kunskapsbas till mer exakta och pålitliga utgångar [1] [5].

- Jämförelse med andra modeller: I vissa utvärderingar, såsom O1-resonemangsmodellen, är GPT-4,5: s hallucinationshastighet högre (37% mot 44% för O1). GPT-4,5 är emellertid utformad för mer allmänna applikationer snarare än specialiserade resonemangsuppgifter [5].

Sammantaget är GPT-4.5: s hallucinationshastighet särskilt låg i domäner där den har utbildats och utvärderats i stor utsträckning, till exempel i PersonQA-datasättet. Emellertid kan dess prestanda variera mellan olika uppgifter och utvärderingar, vilket återspeglar de pågående utmaningarna för att minska hallucinationer i AI -modeller.

Citeringar:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
]
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garyMarcus.substack.com/p/gpt-45-is-no-gpt-5
]