GPT-4.5 vs. GPT-4O: reducerea halucinației și compararea preciziei

Cum se compară performanța GPT-4.5 cu GPT-4O în ceea ce privește halucinațiile

GPT-4.5 și GPT-4O sunt ambele modele de limbaj avansate dezvoltate de OpenAI, fiecare având îmbunătățiri distincte față de predecesorii lor. Atunci când comparați performanța lor în ceea ce privește halucinațiile, GPT-4.5 demonstrează o reducere semnificativă a ratelor de halucinație în comparație cu GPT-4O.

Reducerea halucinării în GPT-4.5

-Rata de halucinație: GPT-4,5 are o rată de halucinație de aproximativ 19% atunci când este testată pe setul de date PersonQA, ceea ce reprezintă o îmbunătățire substanțială față de rata GPT-4O de aproximativ 52% [2] [5]. Această reducere indică faptul că GPT-4.5 este mai fiabil și mai puțin predispus la generarea de informații care nu sunt întemeiate în date de fapt.
-Tehnici de îmbunătățire: Reducerea halucinațiilor în GPT-4.5 este atribuită noilor tehnici de supraveghere combinate cu metode tradiționale precum reglarea fină supravegheată (SFT) și învățarea de consolidare din feedback uman (RLHF) [1]. Aceste metode ajută la îmbunătățirea exactității și fiabilității faptului modelului.

Comparație de performanță

-Precizia: În ceea ce privește precizia pe setul de date PersonQA, GPT-4.5 obține o precizie mai mare de 78%, comparativ cu 28%[2] [5] [5]. Acest lucru sugerează că nu numai că GPT-4.5 halucina mai puțin, dar oferă și răspunsuri mai precise.
- Fiabilitatea generală: rata de halucinație mai mică și precizia mai mare a GPT-4.5 o fac o alegere mai de încredere pentru aplicațiile care necesită informații precise și de încredere. Cu toate acestea, ambele modele funcționează în mod similar în anumite evaluări, cum ar fi evaluările de corectitudine și prejudecăți [5].

În rezumat, GPT-4.5 depășește GPT-4O în ceea ce privește reducerea și precizia halucinației, ceea ce îl face o opțiune mai fiabilă pentru sarcinile care necesită informații precise și factuale. Cu toate acestea, ambele modele au punctele lor forte și punctele slabe în diferite domenii și evaluări.

Citări:
.
[2] https://assets.ctfasses.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterprisei/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-hich-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-consider