GPT-4.5: Precizia îmbunătățită cu rate de halucinație reduse

Există domenii în care rata de halucinație a GPT-4.5 este deosebit de scăzută

GPT-4.5, cel mai recent model de la OpenAI, demonstrează o reducere semnificativă a ratelor de halucinație în comparație cu predecesorii săi. Deși, în general, arată o rată de halucinație de aproximativ 37%, există domenii și evaluări specifice în care performanța sa este în special mai bună.

Tehnici de reducere a halucinației

GPT-4.5 folosește noi tehnici de supraveghere, inclusiv reglarea fină supravegheată (SFT) și învățarea de consolidare din feedback-ul uman (RLHF), care contribuie la rata de halucinație mai mică [1] [3]. Aceste metode ajută la îmbunătățirea exactității și fiabilității modelului, asigurându -se că acesta generează informații întemeiate în date de fapt.

Performanță în domenii specifice

- Evaluare PersonQA: în setul de date Persop, care testează capacitatea unui model de a răspunde cu exactitate despre oameni despre oameni, GPT-4.5 arată o rată de halucinație de aproximativ 19%. Aceasta este mai mică decât rata generală și indică faptul că în domeniile care implică informații factuale despre indivizi, GPT-4.5 funcționează bine cu mai puține halucinații [3].

-Sarcini legate de limbaj: GPT-4.5 excelează în sarcini de scriere și programare, oferind explicații detaliate și asistență în rezolvarea practică a problemelor. Deși ratele de halucinație specifice pentru aceste sarcini nu sunt detaliate, recunoașterea modelului îmbunătățită a modelului și baza de cunoștințe mai largă contribuie la rezultate mai precise și mai fiabile [1] [5].

- Comparație cu alte modele: În anumite evaluări, cum ar fi modelul de raționament O1, rata de halucinație a GPT-4.5 este mai mare (37% vs. 44% pentru O1). Cu toate acestea, GPT-4.5 este conceput pentru aplicații cu scop mai general, mai degrabă decât pentru sarcini de raționament specializate [5].

În general, rata de halucinație a GPT-4.5 este deosebit de scăzută în domeniile în care a fost instruită și evaluată pe larg, cum ar fi în setul de date PersonQA. Cu toate acestea, performanța sa poate varia în funcție de diferite sarcini și evaluări, reflectând provocările continue în reducerea halucinațiilor la modelele AI.

Citări:
.
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45Turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-specific-data-from-s-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-Rolls-out-gpt-45-some-paying-susers-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-fiffusion-200k-context-claude-21-139386