Як GPT-5 знижує показники галюцинації: стратегії курації даних, навчання та зворотного зв'язку

Зниження показників галюцинації GPT-5 пояснюється як його навчальними даними, так і вдосконаленими методологіями навчання. OpenAI відкрито повідомив, що відповіді GPT-5 на 45% рідше містять фактичні помилки порівняно з GPT-4O, і з його вдосконаленим режимом "міркування" фактичні помилки падають приблизно на 80% відносно попередньої моделі O3. Придушення галюцинацій у GPT-5 не є результатом одного набору даних, а складним процесом складання наборів даних, фільтрації, безперервного після тренування з зворотним зв'язком людини та інтеграції зовнішніх фактичних ресурсів перевірки.

Стратегія якості даних та курації

Перший стовп OpenAI проти галюцинацій у GPT-5-це використання розширених, якісних та кураційних наборів даних. Це означає:
- Дані про джерела, швидше за все, будуть перевірені та авторитетні.
.
-Дані, орієнтовані на користувачів, фільтруються, анонімізуються та ретельно ретельно ретельно перевіряють фактичності перед включенням у контрольоване моделювання тонкої настройки або винагороди.

Для подальшого зменшення ризику галюцинації OpenAI розгорнув широкі процеси очищення даних для виявлення та виключення галасливих, суперечливих або синтетичних вмісту, який може викликати помилки в результатах моделі.

після тренування та посилення від зворотного зв’язку людини (RLHF)

Відгуки людини є центральним в архітектурі GPT-5. Модель зазнає інтенсивних раундів навчання підкріплення з зворотного зв’язку людини (RLHF), в яких людські рейтинги:
- Судити результати фактичної коректності, узгодженості та узгодження з наміром користувача.
- Забезпечте парні уподобання щодо поколінь моделей, нагородження точності та інформативності, одночасно покараючи галюцинації.
- Ці сигнали є основою для моделей винагород, які ще більше оптимізують GPT-5, щоб віддати перевагу фактично правильним завершенню.

Крім того, RLHF доповнюється автоматизованими класами фактичності, підтвердженими проти людського судження, щоб масштабувати виявлення галюцинацій. Ці грейдери служать як кількісною мірою в оцінках, так і як компонент постійної підготовки, що забезпечує масштабні, швидкі петлі зворотного зв’язку, що перевищує виключно анотацію людини.

Оцінювальні орієнтири та стресове тестування

Для вимірювання галюцинацій, GPT-5 суворо випробує на нові орієнтири на публічні та внутрішні фактичності, такі як довгі фальсифікації (поняття та об'єкти) та факти (підказки, що шукають фактів). Рамка оцінювання націлена на більш важкі, відкриті підказки та вміст довгої форми, ділянки, в яких галюцинації раніше процвітали. За словами OpenAI, "думка GPT-5" створює приблизно в шість разів менше галюцинацій, ніж O3 на цих завданнях.

GPT-5 також оцінюється у виробничому трафіку в реальному світі та спеціалізованих тестових наборах, де його здатність правильно визнати прогалини знань та уникати виготовлення безпосередньо вимірюється та вдосконалюється. Наприклад, відмова моделі вигадувати неіснуючі активи в мультимодальних умовах помітно покращилася порівняно з попередніми поколіннями.

Архітектурні та навчальні втручання

Кілька глибших втручань під час навчання цільових галюцинацій:

-Ланцюг, що спонукають та структуровані міркування, вбудовані на фази попереднього тренування та тонкої настройки, що дозволяє моделі виробляти більш пояснені та заземлені результати, а не впевнені уподобання.
-Парадигма безпечних завершення замінює старшу модель безпеки на основі відмови, навчання GPT-5 для надання корисних, обмежених відповідей або прозоро повідомляти про свої межі та міркування, коли не може безпечно відповісти.
-Використання інструментів та покоління, що розноситься, (RAG): GPT-5 систематично навчається для використання веб-пошуку та зовнішніх інструментів перевірки фактів для запитів, які потребують сучасних або дуже конкретних знань. Це різко знижує ризик галюцинацій для незрозумілих або швидко розвивається суб'єктів.
- Скорочення сикофанції: трубопровід курації GPT-5 явно збирає дані, розроблені для захоплення моделей у домовленості, забираючи відповіді за сикофанцію та використання цих балів як негативну винагороду під час RLHF, безпосередньо нападаючи на галюцинацію за допомогою проблеми угоди.

Результати та обмеження в реальному світі

Незважаючи на ці досягнення, GPT-5 не повністю застрахований від галюцинацій. Наприклад:
-Повідомлена частота галюцинації для складних, відкритих завдань (вимірюється за допомогою таких орієнтирів, як простий QA) залишається значущим, особливо коли система відрізана від інструментів перевірки фактів.
- Доступ до веб -пошуку значно знижує показники помилок, ілюструючи важливість гібридних тренувань (поєднуючи статичні кураторні дані з пошуком) у модеруючих галюцинаціях.
- Певні творчі або абстрактні підказки продовжують кидати виклик механізмам заземлення системи.

Постійні оновлення та відгуки спільноти

Система GPT-5 годує постійні дані спільноти та реального користувача, з механізмами зворотного зв'язку, які дозволяють швидко виправити виявлені галюцинації та розгортання вдосконалення як у фільтруванні даних, так і в дизайні функцій нагородження. OpenAI відкрито визнає необхідність подальшого вдосконалення, особливо у областях з високими ставками, такими як охорона здоров'я та закон, де толерантність до помилок повинна бути мінімальною.

Підсумок ключових кроків курації

Для синтезу, зменшення галюцинацій у GPT-5 виникає з наступних взаємопов'язаних процесів:

1. Ретельно підготовка перед тренуванням та фільтрація даних, з акцентом на пошуку авторитетних баз даних та підтримці актуального фактичного вмісту.
2. Виключення галасливого, ненадійного або упередженого вмісту під час складання набору даних, підкріпленого автоматизованим та вручним оглядом на декількох етапах.
3. Підсилення та безперервне зворотній зв'язок на основі масштабного людського та автоматизованого оцінювання фактичності та правдивості.
4.
5. Втручання після тренінгу, включаючи безпечніші стратегії завершення, чітке придушення сикофанції та сильну інтеграцію з пошуком або знаннями на основі інструментів.
6. Ітеративна жива настройка з відгуків про виробництво та червоної команди, що забезпечує швидке виявлення та вирішення нових витоків галюцинацій.

Ці стратегії колективно відзначають перехід від пасивного пом'якшення до активного, надійного галюцинаційного придушення **, хоча завдання залишається розвивається, що вимагає пильності, постійних оновлень та відкритості досліджень для досягнення ще нижчих помов помилок у майбутньому.

Які навчальні набори даних або кроки курації вирізають галюцинації в GPT-5