Presnosť GPT-4,5 pri riešení problémov a porovnania výkonu

Ako sa porovnáva presnosť GPT-4.5 pri riešení problémov s presnosťou GPT-4O a O1

Presnosť GPT-4,5 pri riešení problémov, najmä v zložitých doménach, ako je multimodálne riešenie problémov a virologia, nie je výslovne podrobne uvedená v dostupných informáciách. GPT-4,5 však preukázala zlepšenie v určitých oblastiach v porovnaní s jej predchodcami. Napríklad má lepšie výsledky pri rozpoznávaní vzorov a kreslenia spojení, ktoré by mohli potenciálne zvýšiť jeho schopnosti riešenia problémov [5].

Pokiaľ ide o konkrétne hodnotenia, GPT-4,5 sa vo všeobecnosti vykonáva na rovnakej úrovni ako GPT-4O a O1 pri odmietnutí nebezpečného obsahu a pri niektorých hodnotení súvisiacich s bezpečnosťou [1] [4]. Avšak, pokiaľ ide o presnosť pri odpovedi na otázky, GPT-4,5 preukázal významné zlepšenia v určitých súboroch údajov. Napríklad v súbore údajov PersonQA, ktorý hodnotí halucinácie a presnosť, GPT-4,5 dosahuje presnosť 0,78 a mieru halucinácie 0,19, prekonanie GPT-4O a O1 [1] [4].

Pri hodnotení spravodlivosti a zaujatosti GPT-4.5 pôsobí podobne ako GPT-4O, ale je prekonaný O1 pri poskytovaní nezaujatých odpovedí na jednoznačné otázky [1] [4]. Zatiaľ čo GPT-4,5 preukázala zlepšenia zaobchádzania s protichodnými správami a dodržiavaním bezpečnostných pokynov, jeho celková presnosť pri riešení problémov konkrétne nie je priamo porovnávaná s GPT-4O a O1 v dostupných údajoch [1] [4].

Schopnosť GPT-4,5 vo všeobecnosti môže rozpoznať vzory a kresliť spojenia zvýšiť jeho výkon pri riešení úloh pri riešení problémov, ale špecifické porovnania v tejto doméne sú obmedzené. Pozorovatelia priemyslu zaznamenali zlepšenia určitých úloh, ako je extrakcia údajov, kde GPT-4,5 prevyšuje GPT-4O extrahovaním polí presnejšie [7]. V dostupných informáciách však nie sú uvedené podrobné porovnania špeciálne pre otázky týkajúce sa riešenia problémov.

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyAuwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pd0f0f0a6c5098d
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-orion-ai-model-rease
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-an-odd-model-question-westion-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-wich-is-the-better/746991