GPT-4.5: poprawa dokładności przy zmniejszonych wskaźnikach halucynacji

Czy są jakieś domeny, w których wskaźnik halucynacji GPT-4.5 jest szczególnie niski

GPT-4.5, najnowszy model OpenAI, wykazuje znaczne zmniejszenie wskaźników halucynacji w porównaniu z jego poprzednikami. Chociaż ogólnie pokazuje wskaźnik halucynacji wynoszący około 37%, istnieją specyficzne domeny i oceny, w których jego wydajność jest znacznie lepsza.

Techniki redukcji halucynacji

GPT-4.5 stosuje nowe techniki nadzoru, w tym nadzorowane dostrajanie (SFT) i uczenie się wzmocnienia na podstawie ludzkich informacji zwrotnych (RLHF), które przyczyniają się do niższego wskaźnika halucynacji [1] [3]. Metody te pomagają poprawić dokładność i niezawodność modelu, zapewniając, że generuje on informacje oparte na danych faktycznych.

wydajność w określonych domenach

- Ocena Personqa: W zestawie danych Personqa, który testuje zdolność modelu do dokładnego odpowiadania na pytania dotyczące osób, GPT-4,5 pokazuje wskaźnik halucynacji około 19%. Jest to niższe niż jego ogólny wskaźnik i wskazuje, że w dziedzinach obejmujących informacje faktyczne o osobach, GPT-4.5 dobrze sobie radzi z mniejszą liczbą halucynacji [3].

-Zadania związane z językiem: GPT-4.5 wyróżnia się zadaniami pisemnymi i programowymi, oferując szczegółowe wyjaśnienia i pomoc w praktycznym rozwiązywaniu problemów. Chociaż specyficzne wskaźniki halucynacji dla tych zadań nie są szczegółowe, ulepszone rozpoznawanie wzorów modelu i szersza baza wiedzy przyczyniają się do dokładniejszych i wiarygodnych wyników [1] [5].

- Porównanie z innymi modelami: W niektórych ocenie, takich jak model rozumowania O1, wskaźnik halucynacji GPT-4.5 jest wyższy (37% vs 44% dla O1). Jednak GPT-4.5 jest zaprojektowany do bardziej ogólnych zastosowań, a nie specjalistycznych zadań rozumowania [5].

Ogólnie rzecz biorąc, wskaźnik halucynacji GPT-4.5 jest szczególnie niski w domenach, w których został szeroko przeszkolony i oceniony, na przykład w zestawie danych Personqa. Jednak jego wydajność może się różnić w zależności od różnych zadań i ocen, odzwierciedlając ciągłe wyzwania w zmniejszaniu halucynacji w modelach AI.

Cytaty:
[1] https://topszantads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45Turbo_Hallucination_Explained_With_Tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gppt-used-ut-udhework-whallucinates-and-does-not-use-specific-data-from-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-o-gpt-45-some-paying-users-expand-ccess-nextweek-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolyfy.ai/gpts/exciting-new-pdates-open-source-stable-diffusion-200K-context-claude-21-139386