GPT-4,5 vs. GPT-4o: Porovnanie redukcie a presnosti halucinácie

Ako sa výkon GPT-4,5 porovnáva s GPT-4O, pokiaľ ide o halucinácie

GPT-4,5 a GPT-4O sú modely pokročilých jazykov vyvinutých OpenAI, z ktorých každý má výrazné vylepšenia oproti svojim predchodcom. Pri porovnaní ich výkonnosti z hľadiska halucinácií preukazuje GPT-4,5 významné zníženie miery halucinácie v porovnaní s GPT-4O.

Halucinácia redukcie GPT-4,5

-Miera halucinácie: GPT-4,5 má pri testovaní na súbore údajov PersonQA približne 19% mieru halucinácie približne 19%, čo je podstatné zlepšenie v porovnaní s mierou GPT-4O približne 52% [2] [5]. Toto zníženie naznačuje, že GPT-4,5 je spoľahlivejšie a menej náchylné na generovanie informácií, ktoré nie sú založené na faktických údajoch.
-Techniky zlepšovania: Zníženie halucinácií v GPT-4,5 sa pripisuje novým technikám dohľadu v kombinácii s tradičnými metódami, ako je mierny doladenie pod dohľadom (SFT) a posilňovacie učenie sa od ľudskej spätnej väzby (RLHF) [1]. Tieto metódy pomáhajú pri zvyšovaní faktickej presnosti a spoľahlivosti modelu.

Porovnanie výkonu

-Presnosť: Pokiaľ ide o presnosť v súbore údajov PersonQA, GPT-4,5 dosahuje vyššiu presnosť 78%v porovnaní s 28%GPT-4o [2] [5]. To naznačuje, že GPT-4,5 halucinuje nielen menej, ale tiež poskytuje presnejšie reakcie.
- Celková spoľahlivosť: Nižšia miera halucinácie a vyššia presnosť GPT-4,5 robí z neho spoľahlivejšiu voľbu pre aplikácie vyžadujúce presné a dôveryhodné informácie. Oba modely však vykonávajú podobne pri určitých hodnoteniach, ako sú hodnotenia spravodlivosti a zaujatosti [5].

Stručne povedané, GPT-4,5 prevyšuje GPT-4O, pokiaľ ide o zníženie a presnosť halucinácie, čo z neho robí spoľahlivejšiu možnosť pre úlohy, ktoré si vyžadujú presné a faktické informácie. Oba modely však majú svoje silné a slabé stránky v rôznych doménach a hodnotení.

Citácie:
[1] https://topostads.com/openai-rease-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyAuwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5-5_system_card_2272025.pd0f0f0a6c5098d1/gpt-4-5_system_card_2272025.pdfdfd0f0f0f0a.
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/Searchenterpriseai/feature/gpt-4o-vs-gpt-4-4-how-do--they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-wich-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/Searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diferences-to-consider