GPT-4.5 Natančnost pri odpravljanju težav in primerjav zmogljivosti

Kako natančnost GPT-4.5 o vprašanjih za odpravljanje težav v primerjavi z GPT-4O in O1

Natančnost GPT-4.5 o vprašanjih za odpravljanje težav, zlasti v zapletenih področjih, kot sta multimodalno odpravljanje težav in virologija, v razpoložljivih informacijah ni izrecno podrobna. Vendar je GPT-4.5 na nekaterih področjih pokazal izboljšave v primerjavi s svojimi predhodniki. Na primer, deluje bolje pri prepoznavanju vzorcev in risanju povezav, kar bi lahko povečalo njegove zmogljivosti za odpravljanje težav [5].

Glede na posebne ocene GPT-4.5 na splošno deluje v primerjavi z GPT-4O in O1 pri zavračanju nevarnih vsebin in v nekaterih ocenah, povezanih z varnostjo [1] [4]. Ko pa gre za točnost pri odgovoru na vprašanja, je GPT-4.5 pokazal znatne izboljšave v nekaterih naborih podatkov. Na primer, v naboru podatkov o personqa, ki ocenjuje halucinacije in natančnost, GPT-4.5 doseže natančnost 0,78 in hitrost halucinacije 0,19, kar presega GPT-4O in O1 [1] [4].

Po ocenah poštenosti in pristranskosti GPT-4.5 deluje podobno kot GPT-4O, vendar ga O1 presega pri zagotavljanju nepristranskih odgovorov na nedvoumna vprašanja [1] [4]. Medtem ko je GPT-4.5 pokazal izboljšave pri ravnanju s konfliktnimi sporočili in spoštovanju varnostnih navodil, njegova splošna natančnost pri odpravljanju vprašanj posebej ni neposredno v primerjavi z GPT-4O in O1 v razpoložljivih podatkih [1] [4].

Na splošno lahko zmožnost GPT-4.5 za prepoznavanje vzorcev in vzpostavljanje povezav poveča njegovo delovanje pri odpravljanju napak, vendar so posebne primerjave v tej domeni omejene. Opazovalci industrije so opazili izboljšave nekaterih nalog, kot je pridobivanje podatkov, kjer GPT-4.5 presega GPT-4O z natančnejšim črpanjem polj [7]. Vendar v razpoložljivih informacijah niso na voljo podrobne primerjave, posebej za odpravljanje težav.

Navedbe:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releise_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581Ba4b5d0f0a6c508d1/gpt-4-5_syscar_card
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-rease
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-VS-GPT-3-5-5-Coparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991