GPT-4.5: pagerintas tikslumas, kai sumažėjo haliucinacijos greitis

Ar yra domenų, kuriuose GPT-4.5 haliucinacijos greitis yra ypač mažas

Naujausias „Openai“ modelis GPT-4.5 rodo reikšmingą haliucinacijos greičio sumažėjimą, palyginti su jo pirmtakais. Nors tai paprastai rodo apie 37%haliucinacijos dažnį, yra specifinių sričių ir vertinimų, kuriuose jo veikimas yra ypač geresnis.

haliucinacijos mažinimo technika

GPT-4.5 naudoja naujus priežiūros metodus, įskaitant prižiūrimus tobulinamas derinimas (SFT) ir armatūros mokymasis iš žmonių atsiliepimų (RLHF), kurie prisideda prie mažesnio haliucinacijos greičio [1] [3]. Šie metodai padeda pagerinti modelio tikslumą ir patikimumą užtikrinant, kad jis sukuria informaciją, pagrįstą faktiniais duomenimis.

Spektaklis konkrečiose srityse

- „PersonQA“ vertinimas: „PersonQA“ duomenų rinkinyje, kuriame tikrinamas modelio gebėjimas tiksliai atsakyti į klausimus apie žmones, GPT-4.5 rodo apie 19%haliucinacijos procentą. Tai yra mažesnė už bendrą greitį ir rodo, kad domenuose, kuriuose yra faktinės informacijos apie asmenis, GPT-4.5 veikia gerai su mažiau haliucinacijų [3].

-Kalbos susijusios užduotys: GPT-4.5 išsiskiria rašymo ir programavimo užduotimis, siūlančiomis išsamius paaiškinimus ir pagalbą praktiškai spręsti. Nors konkretūs šių užduočių haliucinacijos procentai nėra išsamūs, patobulintas modelio atpažinimas ir platesnė žinių bazė prisideda prie tikslesnių ir patikimesnių išėjimų [1] [5].

- Palyginimas su kitais modeliais: Tam tikruose vertinimuose, tokiuose kaip O1 samprotavimo modelis, GPT-4.5 haliucinacijos greitis yra didesnis (37%, palyginti su 44% O1). Tačiau GPT-4.5 yra skirtas labiau bendros paskirties programoms, o ne specializuotoms samprotavimo užduotims [5].

Apskritai, GPT-4.5 haliucinacijos dažnis yra ypač mažas domenuose, kuriuose jis buvo plačiai apmokytas ir įvertintas, pavyzdžiui, „PersonQA“ duomenų rinkinyje. Tačiau jo atlikimas gali skirtis įvairiose užduotyse ir vertinimuose, atspindėdami nuolatinius iššūkius mažinant haliucinacijas AI modeliuose.

Citatos:
[1] https://topostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explied_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-seprecific-data-from-files-in-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls out-gpt-45-some-paying-users-expand-acess-next-week-4966131
[6] https://www.youtube.com/watch?v=KTWK3HBAJDY
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/excing-new-pdates-open-ource-source-source-diffusion-200k-context-laude-21-139386