GPT-4.5: Verbeterde nauwkeurigheid met verlaagde hallucinatiepercentages

Zijn er domeinen waar het hallucinatiepercentage van GPT-4.5 bijzonder laag is

GPT-4.5, het nieuwste model van OpenAI, toont een significante verlaging van de hallucinatiesnelheden in vergelijking met zijn voorgangers. Hoewel het over het algemeen een hallucinatiepercentage van ongeveer 37%vertoont, zijn er specifieke domeinen en evaluaties waarbij de prestaties met name beter zijn.

hallucinatie reductietechnieken

GPT-4.5 maakt gebruik van nieuwe toezichtstechnieken, waaronder begeleide verfijning (SFT) en versterking leren van menselijke feedback (RLHF), die bijdragen aan het lagere hallucinatiepercentage [1] [3]. Deze methoden helpen de nauwkeurigheid en betrouwbaarheid van het model te verbeteren door ervoor te zorgen dat het informatie genereert die is gebaseerd op feitelijke gegevens.

prestaties in specifieke domeinen

- Persoonqa-evaluatie: in de Personqa-gegevensset, die het vermogen van een model test om vragen over mensen nauwkeurig te beantwoorden, toont GPT-4.5 een hallucinatiepercentage van ongeveer 19%. Dit is lager dan het totale percentage en geeft aan dat GPT-4.5 in domeinen met feitelijke informatie over individuen betrokken is, goed presteert met minder hallucinaties [3].

-Taalgerelateerde taken: GPT-4.5 blinkt uit in schriftelijke en programmeertaken, die gedetailleerde uitleg en hulp bieden bij praktische probleemoplossing. Hoewel specifieke hallucinatiepercentages voor deze taken niet gedetailleerd zijn, dragen de verbeterde patroonherkenning van het model en de bredere kennisbasis bij aan meer nauwkeurige en betrouwbare output [1] [5].

- Vergelijking met andere modellen: in bepaalde evaluaties, zoals het O1-redeneermodel, is het hallucinatiepercentage van GPT-4.5 hoger (37% versus 44% voor O1). GPT-4.5 is echter ontworpen voor meer algemene toepassingen in plaats van gespecialiseerde redeneringstaken [5].

Over het algemeen is het hallucinatiepercentage van GPT-4.5 bijzonder laag in domeinen waar het uitgebreid is getraind en geëvalueerd, zoals in de PersonqA-gegevensset. De prestaties ervan kunnen echter variëren tussen verschillende taken en evaluaties, hetgeen de voortdurende uitdagingen weerspiegelt bij het verminderen van hallucinaties in AI -modellen.

Citaten:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-us-ing-work-now-hallucinates-and-does-not-use-specific-data-file-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-ou-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=KTWK3HBAJdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusie-200k-context-claude-21-139386