GPT-4.5 pret GPT-4O: halucinācijas samazināšanas un precizitātes salīdzinājums

Kā GPT-4.5 veiktspēja salīdzina ar GPT-4O halucināciju ziņā

Gan Openai izstrādātie GPT-4.5, gan GPT-4O ir gan uzlaboti valodu modeļi, katram no tiem ir izteikti uzlabojumi salīdzinājumā ar priekšgājējiem. Salīdzinot to sniegumu halucināciju ziņā, GPT-4.5 parāda ievērojamu halucinācijas līmeņa samazināšanos salīdzinājumā ar GPT-4O.

Halucinācijas samazinājums GPT-4.5

-Halucinācijas ātrums: GPT-4.5 halucinācijas līmenis ir aptuveni 19%, ja to pārbauda PersonQA datu kopā, kas ir būtisks uzlabojums salīdzinājumā ar GPT-4O likmi aptuveni 52% [2] [5]. Šis samazinājums norāda, ka GPT-4.5 ir ticamāks un mazāk pakļauts informācijas ģenerēšanai, kas nav balstīta uz faktiskajiem datiem.
-Uzlabošanas paņēmieni: Halucināciju samazināšana GPT-4.5 tiek attiecināta uz jaunām uzraudzības metodēm apvienojumā ar tradicionālajām metodēm, piemēram, uzraudzītu precizēšanu (SFT) un pastiprināšanas mācīšanos no cilvēku atsauksmēm (RLHF) [1]. Šīs metodes palīdz uzlabot modeļa faktisko precizitāti un uzticamību.

Veiktspējas salīdzinājums

-Precizitāte: Personqa datu kopas precizitātes ziņā GPT-4.5 sasniedz augstāku precizitāti 78%, salīdzinot ar GPT-4O 28%[2] [5]. Tas liek domāt, ka ne tikai GPT-4.5 halucinē mazāk, bet arī sniedz precīzākas atbildes.
- Kopējā ticamība: GPT-4.5 zemāks halucinācijas ātrums un augstāka precizitāte padara to par uzticamāku izvēli lietojumprogrammām, kurām nepieciešama precīza un uzticama informācija. Tomēr abi modeļi darbojas līdzīgi noteiktos novērtējumos, piemēram, taisnīguma un aizspriedumu novērtējumos [5].

Rezumējot, GPT-4.5 pārspēj GPT-4O halucinācijas samazināšanas un precizitātes ziņā, padarot to par ticamāku iespēju uzdevumiem, kuriem nepieciešama precīza un faktiska informācija. Tomēr abiem modeļiem ir savas stiprās un vājās puses dažādās jomās un novērtējumos.

Atsauces:
[1] https://topmostads.com/openai-rease-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdftft-4-5_system_card_2272025.pdftft-4-5_system_card_2272025.pdftft-4-5_system_card
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterprisea/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterprisea/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider