GPT-4.5 Přesnost při řešení problémů a porovnání výkonu

Jak je přesnost GPT-4.5 při řešení problémů na řešení problémů ve srovnání s přesností GPT-4O a O1

Přesnost GPT-4.5 při otázkách řešení problémů, zejména ve složitých doménách, jako je multimodální řešení problémů a virologie, není v dostupných informacích výslovně podrobně popsána. GPT-4.5 však prokázala zlepšení v určitých oblastech ve srovnání s jejími předchůdci. Například funguje lépe v rozpoznávání vzorců a kreslicích spojení, což by mohlo potenciálně zvýšit své schopnosti odstraňování problémů [5].

Pokud jde o konkrétní hodnocení, GPT-4,5 obecně provádí na stejné úrovni jako GPT-4O a O1 při odmítnutí nebezpečného obsahu a v některých hodnoceních souvisejících s bezpečností [1] [4]. Pokud jde o přesnost při zodpovězení otázek, GPT-4.5 však v některých datových sadách prokázal významná zlepšení. Například v datovém souboru Personqa, který hodnotí halucinace a přesnost, dosahuje GPT-4,5 přesnost 0,78 a míru halucinace 0,19, překonává GPT-4O a O1 [1] [4].

V hodnocení spravedlnosti a zkreslení funguje GPT-4.5 podobně jako GPT-4O, ale je překonán O1 při poskytování nezaujatých odpovědí na jednoznačné otázky [1] [4]. Zatímco GPT-4.5 prokázal zlepšení při zpracování protichůdných zpráv a dodržování bezpečnostních pokynů, jeho celková přesnost při řešení problémů konkrétně není přímo ve srovnání s GPT-4O a O1 v dostupných údajích [1] [4].

Obecně platí, že schopnost GPT-4.5 rozpoznávat vzory a kreslení připojení může zvýšit její výkon při řešení problémů, ale specifická srovnání v této doméně je omezená. Pozorovatelé průmyslu zaznamenali zlepšení určitých úkolů, jako je extrakce dat, kde GPT-4,5 překonává GPT-4o přesněji extrahováním polí [7]. Podrobné srovnání speciálně pro otázky řešení problémů však není v dostupných informacích uvedeno.

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/Comments/1ggnm90/gpt4o_and_athers_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaeHuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-4-5_system_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-Observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-wo-which-is-the-better/746991