Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Как производительность GPT-4.5 по сравнению с GPT-4O с точки зрения галлюцинаций


Как производительность GPT-4.5 по сравнению с GPT-4O с точки зрения галлюцинаций


GPT-4.5 и GPT-4O-это современные языковые модели, разработанные OpenAI, каждая из которых имеет четкие улучшения по сравнению с их предшественниками. При сравнении их эффективности с точки зрения галлюцинаций GPT-4.5 демонстрирует значительное снижение уровня галлюцинации по сравнению с GPT-4O.

снижение галлюцинации GPT-4.5

-Уровень галлюцинации: GPT-4.5 имеет уровень галлюцинации приблизительно 19% при тестировании на наборе данных PersonQA, что является существенным улучшением по сравнению с частотой GPT-4O около 52% [2] [5]. Это сокращение указывает на то, что GPT-4.5 является более надежным и менее подверженным генерированию информации, которая не основана на фактических данных.
-Методы улучшения: сокращение галлюцинаций в GPT-4.5 объясняется новыми методами надзора в сочетании с традиционными методами, такими как контролируемая тонкая настраиваемая (SFT) и подкрепление, обучение от обратной связи человека (RLHF) [1]. Эти методы помогают повысить фактическую точность и надежность модели.

Сравнение производительности

-Точность: с точки зрения точности набора данных PersonQA, GPT-4.5 достигает более высокой точности 78%по сравнению с 28%GPT-4O [2] [5]. Это говорит о том, что GPT-4.5 не только галлюцинирует, но также обеспечивает более точные ответы.
- Общая надежность: более низкий уровень галлюцинации и более высокая точность GPT-4.5 делают его более надежным выбором для приложений, требующих точной и заслуживающей доверия информации. Однако обе модели работают аналогично в определенных оценках, таких как справедливость и оценка смещения [5].

Таким образом, GPT-4.5 превосходит GPT-4O с точки зрения снижения и точности галлюцинации, что делает его более надежным вариантом для задач, которые требуют точной и фактической информации. Тем не менее, обе модели имеют свои сильные и слабые стороны в разных областях и оценках.

Цитаты:
[1] https://topsteads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-the-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-tout
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diffferences-to-consider