GPT-4,5: Verbesserte Genauigkeit mit reduzierten Halluzinationsraten

Gibt es Domänen, in denen die Halluzinationsrate von GPT-4,5 besonders niedrig ist

GPT-4,5, das neueste Modell von OpenAI, zeigt eine signifikante Verringerung der Halluzinationsraten im Vergleich zu seinen Vorgängern. Während es im Allgemeinen eine Halluzinationsrate von etwa 37%zeigt, gibt es bestimmte Domänen und Bewertungen, in denen seine Leistung besonders besser ist.

Halluzinationsreduktionstechniken

GPT-4,5 verwendet neue Überwachungstechniken, darunter überwachte Feinabstimmungen (SFT) und Verstärkungslernen aus menschlichem Feedback (RLHF), die zu seiner niedrigeren Halluzinationsrate beitragen [1] [3]. Diese Methoden verbessern die Genauigkeit und Zuverlässigkeit des Modells, indem sie sicherstellen, dass Informationen in sachlichen Daten erzeugt werden.

Leistung in bestimmten Domänen

- Persönlichkeitsbewertung: Im Personal-Datensatz, in dem die Fähigkeit eines Modells getestet wird, Fragen zu Menschen genau zu beantworten, zeigt GPT-4,5 eine Halluzinationsrate von etwa 19%. Dies ist niedriger als seine Gesamtrate und weist darauf hin, dass GPT-4,5 in Bereichen mit sachlichen Informationen über Einzelpersonen gut mit weniger Halluzinationen abschneidet [3].

-Sprachbezogene Aufgaben: GPT-4.5 zeichnet sich in Schreib- und Programmieraufgaben aus und bietet detaillierte Erklärungen und Unterstützung bei der praktischen Problemlösung. Während die spezifischen Halluzinationsraten für diese Aufgaben nicht detailliert sind, tragen die verbesserte Mustererkennung des Modells und die breitere Wissensbasis zu genaueren und zuverlässigeren Ausgaben bei [1] [5].

- Vergleich mit anderen Modellen: Bei bestimmten Bewertungen, wie dem O1-Argumentationsmodell, ist die Halluzinationsrate von GPT-4,5 (37% gegenüber 44% für O1). GPT-4,5 ist jedoch eher für allgemeinere Anwendungen als für spezielle Argumentationsaufgaben ausgelegt [5].

Insgesamt ist die Halluzinationsrate von GPT-4,5 in Domänen besonders niedrig, in denen sie ausgiebig geschult und bewertet wurde, z. B. im Personal-Datensatz. Die Leistung kann jedoch in verschiedenen Aufgaben und Bewertungen variieren, was die anhaltenden Herausforderungen bei der Reduzierung der Halluzinationen in KI -Modellen widerspiegelt.

Zitate:
[1] https://topmestads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-halcinates-and-does-not-usespecific-data-from-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rollsout-45-some-paying-users-expand-access-next-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200K-context-context-conte-21-139386