OpenAI의 최신 모델 인 GPT-4.5는 전임자에 비해 환각율이 크게 감소한 것을 보여줍니다. 일반적으로 환각율은 약 37%를 나타내지 만 성능이 눈에 띄는 특정 도메인과 평가가 있습니다.
환각 감소 기술
GPT-4.5는 감독 미세 조정 (SFT) 및 인간 피드백 (RLHF)의 강화 학습 (RLHF)을 포함한 새로운 감독 기술을 사용하여 환각율이 낮아 [1] [3]. 이러한 방법은 실제 데이터에 근거한 정보를 생성함으로써 모델의 정확성과 신뢰성을 향상시키는 데 도움이됩니다.
특정 도메인의성능
- PersonQa 평가 : PersonQa 데이터 세트에서 사람들에 대한 질문에 대한 질문에 대한 질문에 대한 답변을 정확하게 테스트하는 GPT-4.5는 환각율이 약 19%를 보여줍니다. 이는 전체 비율보다 낮으며 개인에 대한 사실 정보를 포함하는 영역에서 GPT-4.5는 환각이 적다는 것을 나타냅니다 [3].
-언어 관련 작업 : GPT-4.5는 서면 및 프로그래밍 작업이 탁월하여 실제 문제 해결에 대한 자세한 설명과 지원을 제공합니다. 이러한 작업에 대한 특정 환각 비율은 상세하지 않지만 모델의 개선 된 패턴 인식과 광범위한 지식 기반은보다 정확하고 신뢰할 수있는 출력에 기여합니다 [1] [5].
- 다른 모델과 비교 : O1 추론 모델과 같은 특정 평가에서 GPT-4.5의 환각율은 더 높습니다 (37% 대 O1의 경우 44%). 그러나 GPT-4.5는 전문화 된 추론 작업보다는보다 일반적인 목적 응용 프로그램을 위해 설계되었습니다 [5].
전반적으로, GPT-4.5의 환각율은 PersonQA 데이터 세트와 같이 광범위하게 훈련 및 평가 된 도메인이 특히 낮습니다. 그러나 성능은 AI 모델의 환각을 줄이는 데있어 지속적인 과제를 반영하여 작업과 평가에 따라 다를 수 있습니다.
인용 :
[1] https://topmestads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-hallucinates-nod-usespecific-from-from-fils-instrated/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386