GPT-4.5 pontosság a hibaelhárításban és a teljesítmény-összehasonlításokban

Hogyan hasonlítja össze a GPT-4.5 pontosságát a hibaelhárítási kérdéseknél a GPT-4O és az O1 pontosságához

A GPT-4.5 pontosságát a hibaelhárítási kérdéseknél, különösen olyan összetett területeken, mint a multimodális hibaelhárítás és a virológia, a rendelkezésre álló információk nem részletesebben részletezik. A GPT-4.5 azonban javulásokat mutatott bizonyos területeken az elődeihez képest. Például jobban teljesít a minták felismerésében és a kapcsolatok rajzolásában, ami potenciálisan javíthatja a hibaelhárítási képességeit [5].

A konkrét értékelések szempontjából a GPT-4.5 általában a GPT-4O-val és az O1-rel megegyezik a nem biztonságos tartalom megtagadása és a biztonsággal kapcsolatos értékelések során [1] [4]. A kérdések megválaszolásának pontosságának szempontjából azonban a GPT-4.5 jelentős javulást mutatott egyes adatkészletekben. Például a PersonQA adatkészletben, amely értékeli a hallucinációkat és a pontosságot, a GPT-4,5 0,78 pontosságot és 0,19 hallucinációs sebességet eredményez, felülmúlva a GPT-4O-t és az O1-et [1] [4].

A méltányosság és az elfogultság értékelése során a GPT-4.5 hasonlóan teljesít, mint a GPT-4O, de az O1 felülmúlja az egyértelmű kérdésekre való elfogulatlan válaszokat [1] [4]. Míg a GPT-4.5 javult az ütköző üzenetek kezelésében és a biztonsági utasítások betartásában, a kérdések elhárításának általános pontossága kifejezetten nem közvetlenül a GPT-4O-hoz és az O1-hez képest a rendelkezésre álló adatokban [1] [4].

Általánosságban elmondható, hogy a GPT-4.5 képessége a minták felismerésére és a kapcsolatok rajzolására javíthatja teljesítményét a hibaelhárítási feladatokban, ám ezen a tartományban a konkrét összehasonlítások korlátozottak. Az ipari megfigyelők megfigyelték bizonyos feladatok javulását, például az adatkivonatot, ahol a GPT-4.5 felülmúlja a GPT-4O-t, pontosabban a mezők kinyerésével [7]. A rendelkezésre álló információk azonban nem tartalmaznak részletes összehasonlításokat, amelyek kifejezetten a kérdések elhárítására vonatkozó kérdéseket nem tartalmaznak.

Idézetek:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releneed_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_card_2272025.pdfffff
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-iion-model-reelease
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-wich-is-the-better/746991