Как GPT-5 снижает показатели галлюцинации: курирование данных, обучение и стратегии обратной связи

Снижение уровня галлюцинации GPT-5 объясняется как их курирование данных обучения, так и методологии передового обучения. OpenAI открыто сообщил, что ответы GPT-5 на 45% реже содержат фактические ошибки по сравнению с GPT-4O, а с его расширенным режимом «рассуждения» фактические ошибки упали примерно на 80% по сравнению с предыдущей моделью O3. Подавление галлюцинаций в GPT-5 не является результатом одного набора данных, а сложным процессом сборки наборов данных, фильтрации, непрерывной пост-тренировки с обратной связью с человека и интеграцией внешних фактических проверяющих ресурсов.

Стратегия качества данных и курирования

Первым столпом OpenAI против галлюцинаций в GPT-5 является использование расширенных, высококачественных и кураторских наборов данных. Это означает:
- Исходные данные с большей вероятностью будут проверены и авторитетными.
- Явные усилия предпринимаются для удаления или минимизации известного ненадежного, смещенного или злонамеренного содержания во время предварительного обучения и во время циклов обновления данных.
-Данные, управляемые пользователем, фильтрованы, анонимизируются и тщательно изучаются на предмет факта перед включением в контролируемую точную настройку или моделирование вознаграждения.

Чтобы еще больше снизить риск галлюцинации, OpenAI развернул обширные процессы очистки данных для выявления и исключения шумного, противоречивого или синтетического содержания, которое может вызвать ошибки в результатах модели.

после тренировки и подкрепления от обратной связи с человеком (RLHF)

Человеческая обратная связь является центральной в архитектуре GPT-5. Модель подвергается интенсивным раундам подкрепления, обучающегося от обратной связи человека (RLHF), в которой оценки человека:
- Судья выходы за фактическую правильность, согласованность и выравнивание с намерениями пользователя.
- Предоставьте парные предпочтения в отношении поколений моделей, вознаграждение точности и информативности при наказании за галлюцинации.
- Эти сигналы образуют основу для моделей вознаграждения, которые дополнительно оптимизируют GPT-5, предпочитают фактически правильные завершения.

Кроме того, RLHF дополняется автоматизированными грейдерами фактов, подтвержденных против человеческого решения, чтобы масштабировать обнаружение галлюцинаций. Эти грейдеры служат как количественным критерием в оценках, так и в качестве компонента постоянного обучения, обеспечивая крупномасштабные, быстрые петли обратной связи за пределами исключительно человеческой аннотации.

Оценка контрольных показателей и стресс -тестирования

Чтобы измерить галлюцинации, GPT-5 строго испытывает стресс на новую общественную и внутреннюю фактическую оценку, такие как Longfact (концепции и объекты) и FactScore (подсказка для поиска фактов). Структура оценки нацелена на более сложные, открытые подсказки и содержание длинного формирования, области, в которых ранее процветали галлюцинации. Согласно Openai, «GPT-5 мышление» производит примерно в шесть раз меньше галлюцинаций, чем O3 для этих задач.

GPT-5 также оценивается в реальном производственном трафике и специализированных тестовых наборах, где его способность правильно допускать пробелов в знаниях и избегать изготовления непосредственно измеряется и улучшается. Например, отказ модели изобретать несуществующие активы в мультимодальных условиях значительно улучшился по сравнению с более ранними поколениями.

Архитектурные и учебные вмешательства

Несколько более глубоких вмешательств во время обучения целевых галлюцинаций:

-Индикатор размышлений и структурированных рассуждений в цепочке встроена в фазы предварительного обучения и тонкой настройки, что позволяет модели производить более объяснимые и обоснованные выходы, а не уверенные предположения.
-Безопасные завершения Парадигма заменяет более старую модель безопасности на основе отказа, обучая GPT-5, чтобы обеспечить полезные, ограниченные ответы или прозрачно сообщать о своих пределах и рассуждениях, когда он не может безопасно ответить.
-Использование инструментов и поиск-аугимент (RAG): GPT-5 систематически обучается использовать веб-поиск и инструменты проверки фактов для запросов, которые требуют современных или очень специфических знаний. Это резко снижает риск галлюцинаций на неясных или быстро развивающихся субъектах.
- Сокращение сикофантности: куриный трубопровод GPT-5 явно собирает данные, предназначенные для ловушки моделей в ошибках соглашения, забивая ответы для сикофсинности и использование этих баллов в качестве негативного вознаграждения во время RLHF, непосредственно атакуя галлюцинацию по вопросам соглашения.

реальные результаты и ограничения

Несмотря на эти достижения, GPT-5 не полностью невосприимчив к галлюцинациям. Например:
-Зарегистрированная частота галлюцинации для сложных открытых задач (измеряемых такими критериями, как простой QA), остается значительным, особенно когда система отключается от живых инструментов проверки фактов.
- Доступ к веб -поиску значительно снижает частоту ошибок, иллюстрируя важность гибридного обучения (объединяя статические кураторские данные с поиском) в смягчении галлюцинаций.
- Некоторые творческие или абстрактные подсказки продолжают оспаривать механизмы заземления системы.

непрерывные обновления и отзывы сообщества

Система GPT-5 питается постоянными данными сообщества и реальным пользователем с механизмами обратной связи, которые позволяют быстро исправить обнаруженные галлюцинации и развертывание усовершенствования как в фильтрации данных, так и в проектировании функций вознаграждения. OpenAI открыто признает необходимость дальнейшего улучшения, особенно в областях с высокими ставками, такими как здравоохранение и закон, где допуск ошибок должен быть минимальным.

Сводка шагов курирования ключей

Для синтеза, уменьшение галлюцинаций в GPT-5 вытекает из следующих взаимосвязанных процессов:

1. Тщательный предварительный выбор данных и фильтрация данных с акцентом на поиск из авторитетных баз данных и поддержание современного фактического содержания.
2. Исключение шумного, ненадежного или предвзятого контента во время сборки набора данных, подкрепленного автоматическим и ручным просмотром на нескольких этапах.
3. Подкрепление обучения и непрерывная обратная связь на основе крупномасштабной человеческой и автоматизированной оценки по факту и правдоподобия.
4. Оценка против надежных критериев фактов, как статического, так и реального мира, измеряя точную скорость и тип галлюцинаций в различных условиях.
5. Пост-тренировочные вмешательства, включая более безопасные стратегии завершения, явное подавление сикофсинности и сильную интеграцию с поиском или на основе инструментов.
6. Итеративная живая настройка от обратной связи с производством и красной команды, обеспечивающие быстро обнаружены новые утечки галлюцинаций.

Эти стратегии в совокупности отмечают переход от пассивного смягчения к активному, надежному подавлению галлюцинации **, хотя задача остается развивающейся, требующей бдительности, постоянных обновлений и исследования открытости для достижения еще более низких границ ошибок в будущем.

Какие наборы обучения или шаги курирования сокращают галлюцинации в GPT-5