GPT-4.5 Noggrannhet vid felsökning och jämförelse av prestanda

Hur jämför GPT-4.5: s noggrannhet vid felsökningsfrågor med GPT-4O och O1

Noggrannheten för GPT-4,5 på felsökningsfrågor, särskilt inom komplexa domäner som multimodal felsökning och virologi, är inte uttryckligen detaljerad i tillgänglig information. GPT-4,5 har emellertid visat förbättringar i vissa områden jämfört med dess föregångare. Till exempel presterar det bättre när det gäller att känna igen mönster och ritanslutningar, vilket potentiellt kan förbättra dess felsökningsfunktioner [5].

När det gäller specifika utvärderingar presterar GPT-4.5 vanligtvis i nivå med GPT-4O och O1 i vägrar osäkert innehåll och i vissa säkerhetsrelaterade utvärderingar [1] [4]. Men när det gäller noggrannhet när det gäller att svara på frågor har GPT-4,5 visat betydande förbättringar i vissa datasätt. Till exempel, i PersonQA-datasättet, som utvärderar hallucinationer och noggrannhet, uppnår GPT-4,5 en noggrannhet på 0,78 och en hallucinationshastighet på 0,19, vilket överträffar GPT-4O och O1 [1] [4].

I utvärderingar av rättvisa och förspänning utför GPT-4,5 på liknande sätt som GPT-4O men är överträffad av O1 när de tillhandahåller opartiska svar på otvetydiga frågor [1] [4]. Medan GPT-4,5 har visat förbättringar i hanteringen av motstridiga meddelanden och följt säkerhetsinstruktionerna, jämförs dess övergripande noggrannhet i felsökningsfrågor specifikt direkt med GPT-4O och O1 i tillgängliga data [1] [4].

I allmänhet kan GPT-4.5: s förmåga att känna igen mönster och dra anslutningar förbättra dess prestanda vid felsökningsuppgifter, men specifika jämförelser inom denna domän är begränsade. Branschobservatörer har noterat förbättringar i vissa uppgifter, till exempel extraktion av data, där GPT-4,5 överträffar GPT-4O genom att extrahera fält mer exakt [7]. Detaljerade jämförelser specifikt för felsökningsfrågor tillhandahålls emellertid inte i tillgänglig information.

Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_bencharks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272027202720272,PDF
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model- release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-cenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-dd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-w-is-the-better/746991