GPT-4.5 a GPT-4O jsou pokročilé jazykové modely vyvinuté společností OpenAI, z nichž každá má výrazná vylepšení oproti jejich předchůdcům. Při porovnání jejich výkonnosti z hlediska halucinací GPT-4,5 prokazuje významné snížení míry halucinace ve srovnání s GPT-4o.
Snížení halucinace v GPT-4.5
-Míra halucinace: GPT-4,5 má míru halucinace přibližně 19%, když je testován na datovém souboru Personqa, což je podstatné zlepšení oproti míře GPT-4O asi 52% [2] [5]. Tato redukce naznačuje, že GPT-4,5 je spolehlivější a méně náchylnější k generování informací, které nejsou založeny na faktických datech.
-Techniky zlepšení: Snížení halucinací v GPT-4.5 je přičítáno novým technikám dohledu v kombinaci s tradičními metodami, jako je pod dohledem jemného doladění (SFT) a učení posílení z lidské zpětné vazby (RLHF) [1]. Tyto metody pomáhají zlepšit faktickou přesnost a spolehlivost modelu.
Porovnání výkonu
-Přesnost: Pokud jde o přesnost datového souboru Personqa, GPT-4,5 dosahuje vyšší přesnosti 78%, ve srovnání s 28%GPT-4O [2] [5]. To naznačuje, že nejen GPT-4,5 halucinace méně, ale také poskytuje přesnější reakce.
- Celková spolehlivost: Nižší míra halucinace a vyšší přesnost GPT-4.5 z něj činí spolehlivější volbu pro aplikace vyžadující přesné a důvěryhodné informace. Oba modely však působí podobně v určitých hodnoceních, jako jsou hodnocení spravedlnosti a zaujatosti [5].
Stručně řečeno, GPT-4.5 překonává GPT-4o z hlediska snižování a přesnosti halucinace, což z něj činí spolehlivější možnosti úkolů, které vyžadují přesné a faktické informace. Oba modely však mají své silné a slabé stránky napříč různými doménami a hodnoceními.
Citace:
[1] https://topstemads.com/openai-renease-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaeHuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-4-5_system_card_2272025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/GPT-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-wo-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-Consider