GPT-4,5 vs. GPT-4O: Porównanie halucynacji i porównania dokładności

W jaki sposób wydajność GPT-4.5 porównuje się do GPT-4O pod względem halucynacji

GPT-4.5 i GPT-4O to zaawansowane modele językowe opracowane przez Openai, każde z wyraźnymi ulepszeniami w stosunku do swoich poprzedników. Porównując ich wyniki pod względem halucynacji, GPT-4,5 wykazuje znaczne zmniejszenie wskaźników halucynacji w porównaniu z GPT-4O.

redukcja halucynacji w GPT-4.5

-Wskaźnik halucynacji: GPT-4,5 ma wskaźnik halucynacji wynoszący około 19% podczas testowania zestawu danych Personqa, co stanowi znaczną poprawę w stosunku do wskaźnika GPT-4O wynoszącej około 52% [2] [5]. Ta redukcja wskazuje, że GPT-4.5 jest bardziej niezawodny i mniej podatny na generowanie informacji, które nie są oparte na danych faktycznych.
-Techniki poprawy: Zmniejszenie halucynacji w GPT-4.5 przypisuje się nowym technikom nadzoru w połączeniu z tradycyjnymi metodami, takimi jak nadzorowane dostrajanie (SFT) i uczenie się wzmocnienia na podstawie opinii ludzkiej (RLHF) [1]. Metody te pomagają zwiększyć dokładność i niezawodność modelu.

Porównanie wydajności

-Dokładność: Pod względem dokładności zestawu danych Personqa GPT-4.5 osiąga wyższą dokładność 78%, w porównaniu z 28%GPT-4O [2] [5]. Sugeruje to, że Halucynat GPT-4.5 jest mniejszy, ale także zapewnia dokładniejsze reakcje.
- Ogólna niezawodność: niższy wskaźnik halucynacji i wyższa dokładność GPT-4.5 sprawiają, że jest to bardziej niezawodny wybór dla aplikacji wymagających precyzyjnych i godnych zaufania informacji. Jednak oba modele działają podobnie w niektórych ocenach, takich jak oceny uczciwości i stronniczości [5].

Podsumowując, GPT-4.5 przewyższa GPT-4O pod względem redukcji halucynacji i dokładności, co czyni go bardziej niezawodną opcją dla zadań wymagających precyzyjnych i faktycznych informacji. Jednak oba modele mają swoje mocne i słabe strony w różnych domenach i ocenie.

Cytaty:
[1] https://topszantads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-hey-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gppt-4o-hhich-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-liggest-differences-to-consider