GPT-4.5 og GPT-4O er begge avanserte språkmodeller utviklet av Openai, hver med distinkte forbedringer i forhold til forgjengerne. Ved sammenligning av ytelsen når det gjelder hallusinasjoner, viser GPT-4.5 en betydelig reduksjon i hallusinasjonsgraden sammenlignet med GPT-4O.
Hallusineringsreduksjon i GPT-4.5
-Hallusinasjonsfrekvens: GPT-4,5 har en hallusinasjonsgrad på omtrent 19% når den testes på PersonQA-datasettet, som er en betydelig forbedring i forhold til GPT-4Os rate på omtrent 52% [2] [5]. Denne reduksjonen indikerer at GPT-4.5 er mer pålitelig og mindre utsatt for å generere informasjon som ikke er jordet i faktiske data.
-Forbedringsteknikker: Reduksjonen i hallusinasjoner i GPT-4.5 tilskrives nye tilsynsteknikker kombinert med tradisjonelle metoder som overvåket finjustering (SFT) og forsterkningslæring fra menneskelig tilbakemelding (RLHF) [1]. Disse metodene hjelper til med å styrke modellens faktiske nøyaktighet og pålitelighet.
Performance Comparison
-Nøyaktighet: Når det gjelder nøyaktighet på PersonQA-datasettet, oppnår GPT-4,5 en høyere nøyaktighet på 78%, sammenlignet med GPT-4Os 28%[2] [5]. Dette antyder at ikke bare GPT-4.5 hallusinerer mindre, men det gir også mer nøyaktige svar.
- Generell pålitelighet: Den lavere hallusinasjonsfrekvensen og høyere nøyaktighet av GPT-4.5 gjør det til et mer pålitelig valg for applikasjoner som krever presis og pålitelig informasjon. Imidlertid presterer begge modellene på samme måte i visse evalueringer, for eksempel rettferdighet og skjevhetsvurderinger [5].
Oppsummert overgår GPT-4.5 GPT-4O når det gjelder reduksjon og nøyaktighet av hallusinasjon, noe som gjør det til et mer pålitelig alternativ for oppgaver som krever presis og faktainformasjon. Imidlertid har begge modellene sine styrker og svakheter på tvers av forskjellige domener og evalueringer.
Sitasjoner:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_sy_card_card_sy_sy_card_card_sy_sy_card_sy_card_card_sy_sy_card_card_sy_card_card_systemet
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-preg
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-fest-differences-to-concred