GPT-4.5 ir GPT-4o: Haliucinacijos redukcija ir tikslumo palyginimas

Kaip GPT-4.5 veikimas lyginamas su GPT-4o haliucinacijų atžvilgiu

GPT-4.5 ir GPT-4o yra pažengusiųjų kalbų modeliai, kuriuos sukūrė „Openai“, kiekvienas iš jų turi skirtingus patobulinimus, palyginti su savo pirmtakais. Palyginus jų efektyvumą haliucinacijų atžvilgiu, GPT-4.5 rodo reikšmingą haliucinacijos greičio sumažėjimą, palyginti su GPT-4o.

Haliucinacijos sumažėjimas GPT-4.5

-Haliucinacijos greitis: GPT-4,5 haliucinacijos greitis yra maždaug 19%, kai jis yra patikrintas „PSONSQA“ duomenų rinkinyje, o tai yra žymiai pagerėjimas, palyginti su GPT-4o greičiu apie 52% [2] [5]. Šis sumažinimas rodo, kad GPT-4.5 yra patikimesnis ir mažiau linkęs generuoti informaciją, kuri nėra pagrįsta faktiniais duomenimis.
-Tobulinimo metodai: GPT-4.5 haliucinacijų sumažėjimas priskiriamas naujiems priežiūros metodams kartu su tradiciniais metodais, tokiais kaip prižiūrimas tikslinimas (SFT) ir armatūros mokymasis iš žmogaus atsiliepimų (RLHF) [1]. Šie metodai padeda sustiprinti modelio faktinį tikslumą ir patikimumą.

našumo palyginimas

-Tikslumas: kalbant apie „PSONSQA“ duomenų rinkinio tikslumą, GPT-4.5 pasiekia didesnį 78%tikslumą, palyginti su 28%GPT-4o [2] [5]. Tai rodo, kad ne tik GPT-4.5 haliucinuoja mažiau, bet ir pateikia tikslesnius atsakymus.
- Bendras patikimumas: mažesnis haliucinacijos procentas ir didesnis GPT-4.5 tikslumas tampa patikimesniu pasirinkimu programoms, kurioms reikia tikslios ir patikimos informacijos. Tačiau abu modeliai panašiai veikia tam tikruose vertinimuose, tokiuose kaip sąžiningumo ir šališkumo vertinimai [5].

Apibendrinant galima pasakyti, kad GPT-4.5 pralenkia GPT-4o haliucinacijos mažinimo ir tikslumo atžvilgiu, todėl tai yra patikimesnė galimybė užduotims, kurioms reikia tikslios ir faktinės informacijos. Tačiau abu modeliai turi savo stipriąsias ir silpnąsias puses skirtingose srityse ir vertinimuose.

Citatos:
[1] https://topostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_syst_card_2272025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-wich-is-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/TIP/GPT-35-VS-GPT-4 Didžiausi-diferences-to-consider