GPT-4.5 -tarkkuus vianmääritys- ja suorituskykyvertailuissa

Kuinka GPT-4.5: n tarkkuus vianetsintäkysymyksiin verrattuna GPT-4O: n ja O1: n tarkkuuteen

GPT-4.5: n tarkkuus vianetsintäkysymyksiin, etenkin monimutkaisissa alueissa, kuten multimodaalinen vianetsintä ja virologia, ei ole nimenomaisesti yksityiskohtaisesti käytettävissä olevissa tiedoissa. GPT-4,5 on kuitenkin osoittanut parannuksia tietyillä alueilla edeltäjiinsä verrattuna. Esimerkiksi se toimii paremmin kuvioiden tunnistamisessa ja yhteyksien piirtämisessä, mikä voi mahdollisesti parantaa sen vianetsintäominaisuuksia [5].

Erityisten arviointien suhteen GPT-4,5 toimii yleensä samalla tavalla kuin GPT-4O: n ja O1: n kanssa vaarallisen sisällön kieltäytymisessä ja joissakin turvallisuuteen liittyvissä arvioinnissa [1] [4]. Kun kyse on tarkkuuden vastaamisessa kysymyksiin, GPT-4,5 on kuitenkin osoittanut merkittäviä parannuksia tietyissä tietojoukkoissa. Esimerkiksi henkilöstötietojoukossa, joka arvioi hallusinaatioita ja tarkkuutta, GPT-4,5 saavuttaa tarkkuuden 0,78 ja hallusinaatioasteen 0,19, mikä ylittää GPT-4O: n ja O1: n [1] [4].

Oikeudenmukaisuuden ja puolueellisuuden arvioinnissa GPT-4.5 suorittaa samalla tavalla kuin GPT-4O, mutta O1 ylittää sen tarjoamalla puolueettomia vastauksia yksiselitteisiin kysymyksiin [1] [4]. Vaikka GPT-4.5 on osoittanut parannuksia ristiriitaisten viestien käsittelyssä ja turvallisuusohjeiden noudattamisessa, sen yleistä tarkkuutta erityisesti vianetsintäkysymyksissä ei ole suoraan verrattuna käytettävissä olevien tietojen GPT-4O: iin ja O1: een [1] [4].

Yleensä GPT-4.5: n kyky tunnistaa kuviot ja piirtää yhteydet voivat parantaa sen suorituskykyä vianetsintätehtävissä, mutta tämän alueen erityiset vertailut ovat rajalliset. Teollisuuden tarkkailijat ovat havainneet parannuksia tietyissä tehtävissä, kuten tiedonpoistossa, joissa GPT-4,5 ylittää GPT-4O: n purkamalla kentät tarkemmin [7]. Yksityiskohtaisia vertailuja erityisesti vianetsintäkysymyksiin ei kuitenkaan ole käytettävissä olevissa tiedoissa.

Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
.
.
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
.
.
.