GPT-4.5 Nauwkeurigheid bij probleemoplossing en prestatievergelijkingen

Hoe verhoudt de nauwkeurigheid van GPT-4.5 op het oplossen van problemen met die van GPT-4O en O1

De nauwkeurigheid van GPT-4.5 over het oplossen van problemen, met name in complexe domeinen zoals multimodale probleemoplossing en virologie, is niet expliciet gedetailleerd in de beschikbare informatie. GPT-4.5 heeft echter verbeteringen in bepaalde gebieden aangetoond in vergelijking met zijn voorgangers. Het presteert bijvoorbeeld beter in het herkennen van patronen en het tekenen van verbindingen, die mogelijk de probleemoplossing mogelijkheden kunnen verbeteren [5].

In termen van specifieke evaluaties presteert GPT-4.5 in het algemeen op gelijke voet met GPT-4O en O1 bij het weigeren van onveilige inhoud en in sommige veiligheidsgerelateerde evaluaties [1] [4]. Als het gaat om nauwkeurigheid bij het beantwoorden van vragen, heeft GPT-4.5 echter aanzienlijke verbeteringen getoond in bepaalde datasets. Bijvoorbeeld, in de Personqa-gegevensset, die hallucinaties en nauwkeurigheid evalueert, bereikt GPT-4.5 een nauwkeurigheid van 0,78 en een hallucinatiesnelheid van 0,19, beter dan GPT-4O en O1 [1] [4].

In Fairness and Bias-evaluaties presteert GPT-4.5 op dezelfde manier als GPT-4O, maar wordt het beter gepresteerd door O1 bij het bieden van onpartijdige antwoorden op ondubbelzinnige vragen [1] [4]. Hoewel GPT-4.5 verbeteringen heeft aangetoond bij het omgaan met conflicterende berichten en het naleven van veiligheidsinstructies, is de algehele nauwkeurigheid ervan bij het oplossen van vragen specifiek niet direct vergeleken met GPT-4O en O1 in de beschikbare gegevens [1] [4].

Over het algemeen kan het vermogen van GPT-4.5 om patronen te herkennen en verbindingen te tekenen de prestaties bij het oplossen van problemen verbeteren, maar specifieke vergelijkingen in dit domein zijn beperkt. Waarnemers in de industrie hebben verbeteringen in bepaalde taken opgemerkt, zoals gegevensextractie, waarbij GPT-4.5 beter presteert dan GPT-4O door velden nauwkeuriger te extraheren [7]. Gedetailleerde vergelijkingen specifiek voor het oplossen van problemen worden echter niet verstrekt in de beschikbare informatie.

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comment
[4] https://assets.ctfassets.net/kftzwyauwt9/7eadv6oawhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-systal
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-lit
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparision-in-real-werld-scenarios/
[7] https://ventureBeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-it-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991