GPT-4.5 Nøyaktighet i feilsøking og sammenligning av ytelse

Hvordan sammenligner GPT-4.5s nøyaktighet ved feilsøkingsspørsmål med GPT-4O og O1

Nøyaktigheten av GPT-4.5 om feilsøkingsspørsmål, spesielt i komplekse domener som multimodal feilsøking og virologi, er ikke eksplisitt detaljert i tilgjengelig informasjon. Imidlertid har GPT-4.5 vist forbedringer i visse områder sammenlignet med forgjengerne. For eksempel presterer den bedre i å gjenkjenne mønstre og tegne tilkoblinger, noe som potensielt kan forbedre feilsøkingsfunksjonene [5].

Når det gjelder spesifikke evalueringer, utfører GPT-4.5 generelt på nivå med GPT-4O og O1 for å nekte usikre innhold og i noen sikkerhetsrelaterte evalueringer [1] [4]. Når det gjelder nøyaktighet ved å svare på spørsmål, har GPT-4.5 imidlertid vist betydelige forbedringer i visse datasett. For eksempel, i PersonQA-datasettet, som evaluerer hallusinasjoner og nøyaktighet, oppnår GPT-4,5 en nøyaktighet på 0,78 og en hallusinasjonshastighet på 0,19, og overgår GPT-4O og O1 [1] [4].

I rettferdighet og skjevhetsevalueringer utfører GPT-4.5 på samme måte som GPT-4O, men er bedre enn O1 i å gi objektive svar på entydige spørsmål [1] [4]. Mens GPT-4.5 har vist forbedringer i håndtering av motstridende meldinger og overholder sikkerhetsinstruksjoner, sammenlignes den generelle nøyaktigheten i feilsøkingsspørsmål spesifikt ikke direkte med GPT-4O og O1 i tilgjengelige data [1] [4].

Generelt kan GPT-4.5s evne til å gjenkjenne mønstre og trekke tilkoblinger forbedre ytelsen i feilsøkingsoppgaver, men spesifikke sammenligninger i dette domenet er begrenset. Industriobservatører har bemerket forbedringer i visse oppgaver, for eksempel datautvinning, der GPT-4.5 overgår GPT-4O ved å trekke ut felt mer nøyaktig [7]. Imidlertid er det ikke gitt detaljerte sammenligninger spesielt for feilsøkingsspørsmål i tilgjengelig informasjon.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_release_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_sy_card_card_sy_card_card_sy_card_sy_card_card_sy_card_card_sy_sy_card_card_sy_card_card_sy_card_sy_sy_card_sy_sy_card_sy_sy_cards
[5] https://www.theverge.com/news/620021/opena-gpt-4-5-orrion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-realworld-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-uption-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991