GPT-4.5, den siste modellen fra Openai, demonstrerer en betydelig reduksjon i hallusinasjonsrater sammenlignet med forgjengerne. Selv om det generelt viser en hallusinasjonsrate på omtrent 37%, er det spesifikke domener og evalueringer der ytelsen er spesielt bedre.
Hallusinasjonsreduksjonsteknikker
GPT-4.5 bruker nye tilsynsteknikker, inkludert overvåket finjustering (SFT) og forsterkningslæring fra menneskelig tilbakemelding (RLHF), som bidrar til dens lavere hallusinasjonsgrad [1] [3]. Disse metodene er med på å forbedre modellens nøyaktighet og pålitelighet ved å sikre at den genererer informasjon som er basert på faktiske data.
ytelse i spesifikke domener
- PersonQA Evaluation: I PersonQA-datasettet, som tester en modells evne til å svare på spørsmål om mennesker nøyaktig, viser GPT-4.5 en hallusinasjonsrate på omtrent 19%. Dette er lavere enn den totale frekvensen og indikerer at i domener som involverer saklig informasjon om individer, fungerer GPT-4.5 bra med færre hallusinasjoner [3].
-Språkrelaterte oppgaver: GPT-4.5 utmerker seg i skrive- og programmeringsoppgaver, og tilbyr detaljerte forklaringer og hjelp i praktisk problemløsing. Mens spesifikke hallusinasjonsgrad for disse oppgavene ikke er detaljerte, bidrar modellens forbedrede mønstergjenkjenning og bredere kunnskapsbase til mer nøyaktige og pålitelige utganger [1] [5].
- Sammenligning med andre modeller: I visse evalueringer, for eksempel O1-resonnementsmodellen, er GPT-4,5s hallusinasjonsfrekvens høyere (37% mot 44% for O1). Imidlertid er GPT-4.5 designet for mer generelle applikasjoner i stedet for spesialiserte resonneringsoppgaver [5].
Totalt sett er GPT-4.5s hallusinasjonsfrekvens spesielt lav i domener der den har blitt omfattende trent og evaluert, for eksempel i PersonQA-datasettet. Imidlertid kan ytelsen variere på tvers av forskjellige oppgaver og evalueringer, noe som gjenspeiler de pågående utfordringene med å redusere hallusinasjoner i AI -modeller.
Sitasjoner:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-use-to-work-now-hallucinates-andes-not-uct-spesific-data-from-files-as-instruct/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-plate-open-source-stable-diffusion-200k-context-claude-21-139386