Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Existují nějaké domény, kde je míra halucinace GPT-4.5 obzvláště nízká


Existují nějaké domény, kde je míra halucinace GPT-4.5 obzvláště nízká


GPT-4.5, nejnovější model z OpenAI, prokazuje významné snížení míry halucinace ve srovnání s jeho předchůdci. I když obecně ukazuje míru halucinace asi 37%, existují specifické domény a hodnocení, kde je jeho výkon výrazně lepší.

Techniky redukce halucinace

GPT-4.5 využívá nové techniky dohledu, včetně podřízeného jemného doladění (SFT) a učení z posílení z lidské zpětné vazby (RLHF), které přispívají k jeho nižší míře halucinace [1] [3]. Tyto metody pomáhají zlepšit přesnost a spolehlivost modelu tím, že zajišťují, že generuje informace založené na faktických datech.

Výkon v konkrétních doménách

- Hodnocení Personqa: V datovém souboru Personqa, který testuje schopnost modelu odpovídat na otázky o lidech přesně, GPT-4,5 ukazuje míru halucinace asi 19%. To je nižší než jeho celková míra a naznačuje, že v doménách zahrnujících faktické informace o jednotlivcích funguje GPT-4,5 s menším počtem halucinací [3].

-Úkoly související s jazykem: GPT-4.5 vyniká v psaní a programování, nabízejí podrobná vysvětlení a pomoc při praktickém řešení problémů. Zatímco specifická míra halucinace u těchto úkolů není podrobná, zlepšené rozpoznávání vzorů a širší znalostní základna modelu přispívá k přesnějším a spolehlivějším výstupům [1] [5].

- Srovnání s jinými modely: V určitých hodnoceních, jako je model O1, je míra halucinace GPT-4,5 vyšší (37% vs. 44% pro O1). GPT-4.5 je však navrženo spíše pro obecnější účely než specializované úkoly z uvažování [5].

Celkově je míra halucinace GPT-4,5 zvláště nízká v doménách, kde byla rozsáhle vyškolena a vyhodnocena, například v datovém souboru Personqa. Jeho výkon se však může lišit v různých úkolech a hodnoceních, což odráží pokračující výzvy při snižování halucinací v modelech AI.

Citace:
[1] https://topstemads.com/openai-renease-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18KQAOM/GPT45TURBO_HALLUCININCE_EXPLIADED_WITH_Tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-dot-use-pecific-tata-from-files-as-instructed/809849
[5] https://www.channenewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-nexteek-4966131
[6] https://www.youtube.com/watch?v=KTWK3HBAJDY
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-opendates-open-source-stable-diffusion-200k-context-claude-21-139386