GPT-4.5: Javított pontosság csökkentett hallucinációs sebességgel

Vannak-e olyan területek, ahol a GPT-4.5 hallucinációs aránya különösen alacsony

A GPT-4.5, az OpenAI legújabb modellje, a hallucinációs arány szignifikáns csökkenését mutatja az elődeihez képest. Noha ez általában körülbelül 37%-os hallucinációs arányt mutat, vannak speciális domainek és értékelések, ahol a teljesítménye jelentősen jobb.

hallucináció csökkentési technikák

A GPT-4.5 új felügyeleti technikákat alkalmaz, ideértve a felügyelt finomhangolást (SFT) és az emberi visszacsatolásból származó megerősítési tanulást (RLHF), amelyek hozzájárulnak az alacsonyabb hallucinációs arányhoz [1] [3]. Ezek a módszerek hozzájárulnak a modell pontosságának és megbízhatóságának javításához azáltal, hogy biztosítják, hogy a ténybeli adatokra alapuló információkat generáljon.

teljesítmény bizonyos területeken

- PersonQa értékelés: A PersonQA adatkészletben, amely teszteli a modell azon képességét, hogy pontosan válaszoljon az emberekkel kapcsolatos kérdésekre, a GPT-44.5 körülbelül 19%-os hallucinációs arányt mutat. Ez alacsonyabb, mint az általános aránya, és azt jelzi, hogy az egyénekkel kapcsolatos tényszerű információkkal foglalkozó területeken a GPT-4.5 kevesebb hallucinációval jól teljesít [3].

-Nyelvi feladatok: A GPT-4.5 kiemelkedik az írásban és a programozási feladatokban, részletes magyarázatokat és segítséget nyújtva a gyakorlati problémamegoldáshoz. Noha ezeknek a feladatoknak a konkrét hallucinációs aránya nem részletes, a modell jobb mintázati felismerése és szélesebb körű tudásbázisa hozzájárul a pontosabb és megbízhatóbb outputokhoz [1] [5].

- Összehasonlítás más modellekkel: Bizonyos értékeléseknél, például az O1 érvelési modellben a GPT-4.5 hallucinációs aránya magasabb (37% vs. 44% az O1 esetében). A GPT-4.5-et azonban az általánosabb célú alkalmazásokhoz tervezték, nem pedig a speciális érvelési feladatokat [5].

Összességében a GPT-4.5 hallucinációs aránya különösen alacsony olyan tartományokban, ahol széles körben képzett és kiértékelték, például a PersonQA adatkészletben. Teljesítménye azonban eltérő feladatok és értékelések között változhat, tükrözve az AI modellekben a hallucinációk csökkentésének folyamatban lévő kihívásait.

Idézetek:
[1] https://topmostads.com/openai-reease-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explined_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-ouse-to-work-now-hallucinates-and-does-not-specifikus-data-fles-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-newdates-open-source-stable-diffusion-200k-context-claude-21-139386