GPT-4,5, остання модель OpenAI, демонструє значне зниження частоти галюцинації порівняно з її попередниками. Хоча це, як правило, показує рівень галюцинації близько 37%, існують конкретні домени та оцінки, де його ефективність помітно краща.
методи зменшення галюцинації
GPT-4.5 використовує нові методи нагляду, включаючи нагляд за тонкою настройкою (SFT) та підкріпленням навчання з зворотного зв'язку людини (RLHF), що сприяє нижній швидкості галюцинації [1] [3]. Ці методи допомагають підвищити точність та надійність моделі, забезпечуючи, щоб вона генерувала інформацію, обґрунтовану фактичними даними.
Продуктивність у конкретних доменах
- Оцінка Personqa: У наборі даних Personqa, який перевіряє здатність моделі точно відповідати на питання про людей, GPT-4,5 показує рівень галюцинації близько 19%. Це нижче, ніж його загальна швидкість і вказує на те, що в областях, що включають фактичну інформацію про людей, GPT-4.5 добре працює з меншою кількістю галюцинацій [3].
-Завдання, пов'язані з мовою: GPT-4.5 переважає завдання письмового та програмування, пропонуючи детальні пояснення та допомогу в практичному вирішенні проблем. Хоча конкретні показники галюцинації для цих завдань не деталізовані, вдосконалене розпізнавання моделі та більш широка база знань сприяють більш точним та надійним результатам [1] [5].
- Порівняння з іншими моделями: У певних оцінках, таких як модель міркування O1, швидкість галюцинації GPT-4,5 вищий (37% проти 44% для O1). Однак GPT-4.5 призначений для більш загальних застосувань, а не спеціалізованих завдань міркувань [5].
Загалом, показник галюцинації GPT-4,5 особливо низький у доменах, де він був широко навчений та оцінений, наприклад, у наборі даних Personqa. Однак його ефективність може змінюватись у різних завданнях та оцінках, що відображає постійні проблеми у зменшенні галюцинацій в моделях ШІ.
Цитати:
[1] https://toppperads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explean_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.
[5] https://www.channelnewsasia.com/business/openai-rolls-ut-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386