GPT-4,5: Zlepšená presnosť so zníženou sadzbou halucinácie

Existujú nejaké domény, v ktorých je miera halucinácie GPT-4,5 obzvlášť nízka

GPT-4,5, najnovší model z OpenAI, demonštruje významné zníženie miery halucinácie v porovnaní s jej predchodcami. Aj keď vo všeobecnosti ukazuje mieru halucinácie približne 37%, existujú špecifické domény a hodnotenia, v ktorých je jeho výkon obzvlášť lepší.

Techniky redukcie halucinácie

GPT-4,5 zamestnáva nové techniky dohľadu, vrátane pod dohľadom jemného doladenia (SFT) a posilnenia učenia sa od ľudskej spätnej väzby (RLHF), ktoré prispievajú k nižšej miere halucinácie [1] [3]. Tieto metódy pomáhajú zlepšovať presnosť a spoľahlivosť modelu zabezpečením, že generujú informácie založené na faktických údajoch.

Výkon v konkrétnych doménach

- Hodnotenie personqa: V súbore údajov PersonQA, ktorý testuje schopnosť modelu odpovedať na otázky o ľuďoch presne, GPT-4,5 ukazuje mieru halucinácie približne 19%. Je to nižšie ako jeho celková miera a naznačuje, že v doménach zahŕňajúcich faktické informácie o jednotlivcoch funguje GPT-4,5 dobre s menším počtom halucinácií [3].

-Úlohy súvisiace s jazykom: GPT-4,5 Vyniká pri písaní a programovacích úlohách a ponúka podrobné vysvetlenia a pomoc pri praktickom riešení problémov. Zatiaľ čo konkrétne miery halucinácie pre tieto úlohy nie sú podrobné, zlepšené rozpoznávanie vzoru modelu a širšia znalostná základňa prispieva k presnejším a spoľahlivejším výstupom [1] [5].

- Porovnanie s inými modelmi: Pri určitých hodnoteniach, ako je napríklad model zdôvodnenia O1, je miera halucinácie GPT-4,5 vyššia (37% oproti 44% pre O1). GPT-4,5 je však navrhnutý skôr pre všeobecnejšie aplikácie ako pre špecializované uvažovacie úlohy [5].

Celkovo je miera halucinácie GPT-4,5 obzvlášť nízka v oblastiach, kde bola intenzívne vyškolená a hodnotená, napríklad v súbore údajov o osobnosti. Jeho výkon sa však môže líšiť v závislosti od rôznych úloh a hodnotení, čo odráža pretrvávajúce výzvy pri znižovaní halucinácií v modeloch AI.

Citácie:
[1] https://topostads.com/openai-rease-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explalinded_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/Custom-gpt-used-to-work-work-wallucinates-d-does-not-ususe-specific-data-from-from-siles-as-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-access-next-week-week-4966131
[6] https://www.youtube.com/watch?v=KTWK3HBAJDY
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.tooolify.ai/gpts/exciting-newpdates-open-source-stable-diffusion-200k-context-context-claude-21-139386