Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Есть ли домены, где уровень галлюцинации GPT-4.5 особенно низкий


Есть ли домены, где уровень галлюцинации GPT-4.5 особенно низкий


GPT-4.5, последняя модель от OpenAI, демонстрирует значительное снижение уровня галлюцинации по сравнению с его предшественниками. Несмотря на то, что он обычно показывает галлюцинацию около 37%, существуют конкретные области и оценки, где его производительность особенно лучше.

Методы уменьшения галлюцинации

GPT-4.5 использует новые методы надзора, в том числе контролируемую тонкую настройку (SFT) и обучение подкреплению от обратной связи человека (RLHF), которые способствуют его более низкой частоте галлюцинации [1] [3]. Эти методы помогают повысить точность и надежность модели, гарантируя, что она генерирует информацию, основанную на фактических данных.

производительность в определенных доменах

- Оценка Personqa: в наборе данных PersonQA, который проверяет способность модели точно отвечать на вопросы о людях, GPT-4.5 показывает уровень галлюцинации около 19%. Это ниже, чем общий уровень, и указывает на то, что в доменах, включающих фактическую информацию о людях, GPT-4.5 хорошо работает с меньшим количеством галлюцинаций [3].

-Задачи, связанные с языком: GPT-4.5 превосходно в письменных и программировании, предлагая подробные объяснения и помощь в практическом решении проблем. Хотя конкретные показатели галлюцинации для этих задач не являются подробными, улучшенное распознавание модели и более широкая база знаний способствует более точным и надежным выходам [1] [5].

- Сравнение с другими моделями: в определенных оценках, таких как модель рассуждения O1, уровень галлюцинации GPT-4.5 выше (37% против 44% для O1). Тем не менее, GPT-4.5 предназначен для большего количества приложений общего назначения, а не для специализированных задач рассуждения [5].

В целом, частота галлюцинации GPT-4.5 особенно низкая в доменах, где он был тщательно обучен и оценен, например, в наборе данных PersonQA. Тем не менее, его производительность может варьироваться в зависимости от различных задач и оценок, отражая текущие проблемы в уменьшении галлюцинаций в моделях ИИ.

Цитаты:
[1] https://topsteads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explaind_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-use-to-work-now-hallucinates-and-does-not-usepecifice-data-from-files-as-instrulty/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386