GPT-4.5, den seneste model fra Openai, demonstrerer en betydelig reduktion i hallucinationshastigheder sammenlignet med dens forgængere. Selvom det generelt viser en hallucinationsgrad på ca. 37%, er der specifikke domæner og evalueringer, hvor dens ydeevne er især bedre.
Hallucinationsreduktionsteknikker
GPT-4.5 anvender nye tilsynsteknikker, herunder overvåget finjustering (SFT) og forstærkningslæring fra menneskelig feedback (RLHF), som bidrager til dens nedre hallucinationshastighed [1] [3]. Disse metoder hjælper med at forbedre modellens nøjagtighed og pålidelighed ved at sikre, at den genererer information, der er baseret på faktiske data.
Performance på specifikke domæner
- PersonQA Evaluering: I personqa-datasættet, der tester en model's evne til at besvare spørgsmål om mennesker nøjagtigt, viser GPT-4.5 en hallucinationsgrad på ca. 19%. Dette er lavere end dets samlede sats og indikerer, at i domæner, der involverer faktiske oplysninger om individer, fungerer GPT-4.5 godt med færre hallucinationer [3].
-Sprogrelaterede opgaver: GPT-4.5 udmærker sig skriftligt og programmeringsopgaver, der tilbyder detaljerede forklaringer og hjælp til praktisk problemløsning. Mens specifikke hallucinationsgrader for disse opgaver ikke er detaljeret, bidrager modellens forbedrede mønstergenkendelse og bredere videnbase til mere nøjagtige og pålidelige output [1] [5].
- Sammenligning med andre modeller: I visse evalueringer, såsom O1-resonnementsmodellen, er GPT-4.5s hallucinationsgrad højere (37% mod 44% for O1). Imidlertid er GPT-4.5 designet til mere generelle applikationer snarere end specialiserede ræsonnementsopgaver [5].
Generelt er GPT-4.5s hallucinationsgrad især lav i domæner, hvor det er blevet udførligt trænet og evalueret, såsom i personqa-datasættet. Imidlertid kan dens ydeevne variere på tværs af forskellige opgaver og evalueringer, hvilket afspejler de igangværende udfordringer med at reducere hallucinationer i AI -modeller.
Citater:
[1] https://topmostads.com/openai-release-trpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-ispecifikke-data-from-files-s-instrued/809849
)
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-laude-21-139386