GPT-5 환각율 감소 방법 : 데이터 큐 레이션, 교육 및 피드백 전략

GPT-5의 환각율 감소는 교육 데이터 큐 레이션과 고급 교육 방법론에 기인합니다. OpenAI는 GPT-5 응답이 GPT-4O에 비해 사실 오류를 포함 할 가능성이 최대 45% 감소하고 고급 "추론"모드를 사용하면 사실 오류가 이전 O3 모델에 비해 약 80% 감소한다고 공개적으로보고했습니다. GPT-5에서 환각의 억제는 단일 데이터 세트의 결과가 아니라 데이터 세트 조립, 필터링, 인간 피드백과의 연속 훈련 및 외부 사실 검사 리소스의 통합의 정교한 프로세스입니다.

데이터 품질 및 큐 레이션 전략

GPT-5에서 환각에 대한 Openai의 첫 번째 기둥은 확장, 고품질 및 선별 된 데이터 세트를 사용하는 것입니다. 이것은 다음을 의미합니다.
- 소스 데이터가 확인되고 평판이 좋을 가능성이 높습니다.
- 사전 훈련 및 데이터 새로 고침주기 동안 알려진 신뢰할 수없는, 편향 또는 악의적 인 컨텐츠를 제거하거나 최소화하기위한 명백한 노력이 이루어집니다.
-사용자 대조 데이터는 감독 된 미세 조정 또는 보상 모델링에 포함시키기 전에 사실을 위해 필터링, 익명화 및 사실을 조사합니다.

환각 위험을 더욱 줄이기 위해 OpenAI는 광범위한 데이터 청소 프로세스를 배포하여 모델의 출력에서 오류를 유발할 수있는 시끄러운, 모순 또는 합성 컨텐츠를 식별하고 배제했습니다.

인간 피드백 (RLHF)의 훈련 및 강화

인간의 피드백은 GPT-5의 아키텍처의 중심입니다. 이 모델은 인간의 인적 피드백 (RLHF)에서 집중적 인 강화 학습을 겪습니다.
- 사실적인 정확성, 일관성 및 사용자 의도와의 정렬에 대한 판결.
- 환각을 처벌하면서 모델 세대에 대한 쌍 선호도를 제공하고, 정확도와 정보를 보상합니다.
-이 신호는 GPT-5를 추가로 최적화하여 실제로 수정 된 완료를 선호하는 보상 모델의 기초를 형성합니다.

또한, RLHF는 환각의 탐지를 확장하기 위해 인간의 판단에 대해 검증 된 자동화 된 사실 그레이더에 의해 증강됩니다. 이 등급은 평가에서 정량적 척도로 사용되며 지속적인 훈련의 구성 요소로서 인간의 주석을 넘어서 대규모의 빠른 피드백 루프를 가능하게합니다.

평가 벤치 마크 및 스트레스 테스트

환각을 측정하기 위해 GPT-5는 Longfact (개념 및 대상) 및 사실을 찾는 프롬프트와 같은 새로운 대중 및 내부 사실 벤치 마크에서 스트레스 테스트를 거쳐야합니다. 평가 프레임 워크는 환각이 이전에 번성했던 영역, 개방형 프롬프트 및 긴 형식의 컨텐츠를 목표로 삼았습니다. Openai에 따르면, "GPT-5 사고"는 이러한 작업에서 O3보다 환각을 약 6 배 적게 만듭니다.

GPT-5는 또한 실제 생산 트래픽 및 특수 테스트 세트에서 평가되며, 지식 격차를 올바르게 인정하고 제조를 피할 수있는 능력이 직접 측정되고 개선됩니다. 예를 들어, 다중 모드 설정에서 존재하지 않는 자산을 발명하는 것을 거부하는 모델의 거부는 초기 세대에 비해 현저하게 개선되었습니다.

건축 및 훈련 중재

환각을 훈련하는 동안 몇 가지 더 깊은 개입 :

-사후의 프롬프트 및 구조화 된 추론은 사전 훈련 및 미세 조정 단계에 내장되어 있으며, 모델이 자신감있는 추측보다는보다 설명적이고 접지 된 출력을 생성 할 수 있습니다.
-안전한 완료 패러다임은 구형 거부 기반 안전 모델을 대체하고 GPT-5를 교육하여 도움이되고 제한된 응답을 제공하거나 안전하게 대답 할 수 없을 때 한계와 추론을 투명하게 전달하도록합니다.
-도구 사용 및 검색 세대 생성 (RAG) : GPT-5는 최신 또는 매우 구체적인 지식이 필요한 쿼리를위한 웹 검색 및 외부 사실 확인 도구를 활용하도록 체계적으로 교육을 받았습니다. 이것은 모호하거나 빠르게 진화하는 대상에 대한 환각의 위험을 크게 줄입니다.
-Sycophancy 감소 : GPT-5의 Curation Pipeline은``계약 오류, Sycophancy에 대한 답변을 기록하고, RLHF 중에 이러한 점수를 부정적인 보상으로 사용하도록 설계된 데이터를 명시 적으로 수집하여, 합의에 의한 환각을 직접 공격합니다.

실제 결과 및 한계

이러한 발전에도 불구하고 GPT-5는 환각에 완전히 면역되지 않습니다. 예를 들어:
-복잡한 개방형 작업 (단순 QA와 같은 벤치 마크로 측정)에 대한보고 된 환각율은 특히 시스템이 라이브 사실 확인 도구에서 차단 될 때 여전히 중요합니다.
- 웹 검색에 대한 액세스는 오류율이 상당히 줄어들어 환각 조절에서 하이브리드 교육 (정적 선별 된 데이터를 검색)의 중요성을 보여줍니다.
- 특정 창의적 또는 추상 프롬프트는 시스템의 접지 메커니즘에 계속 도전합니다.

지속적인 업데이트 및 커뮤니티 피드백

GPT-5의 시스템은 데이터 필터링 및 보상 기능 설계에서 발견 된 환각과 개선의 롤아웃을 빠르게 패치 할 수있는 피드백 메커니즘으로 진행중인 커뮤니티 및 실제 사용자 데이터를 공급합니다. Openai는 오류 허용 오차가 최소화되어야하는 의료 및 법률과 같은 고위용 영역에서 추가 개선의 필요성을 공개적으로 인정합니다.

주요 큐 레이션 단계 요약

합성하기 위해, GPT-5에서 환각의 감소는 다음과 같은 상호 연결된 공정에서 발생합니다.

1. 평판이 좋은 데이터베이스의 소싱에 중점을두고 최신 사실 콘텐츠를 유지하는 세심한 사전 훈련 데이터 선택 및 필터링.
2. 데이터 세트 어셈블리 중에 시끄럽거나 신뢰할 수 없거나 편향된 컨텐츠의 제외, 여러 단계에서 자동화 및 수동 검토에 의해 강화됩니다.
3. 진실성과 진실성을위한 대규모 인간 및 자동화 된 등급을 기반으로 한 강화 학습 및 지속적인 피드백.
4. 다양한 조건 하에서 환각의 정확한 속도와 유형을 측정하는 강력한 사실 벤치 마크에 대한 평가.
5.보다 안전한 완료 전략, 명시 적 시코 닉 억제, 검색 또는 도구 기반 지식과의 강력한 통합을 포함한 훈련 후 중재.
6. 생산 피드백과 레드 팀 링으로 인한 반복 라이브 튜닝으로 환각의 새로운 누출이 빠르게 감지되고 해결되도록합니다.

이러한 전략은 수동적 완화에서 능동적이고 강력한 환각 억제로의 전환을 종합적으로 표시합니다.

GPT-5에서 환각을 줄인 교육 데이터 세트 또는 큐 레이션 단계