Precizie GPT-4.5 în depanare și comparații de performanță

Cum se compară exactitatea GPT-4.5 cu privire la întrebările de depanare cu cea a GPT-4O și O1

Precizia GPT-4.5 cu privire la întrebările de depanare, în special în domenii complexe, cum ar fi depanarea multimodală și virologie, nu este detaliată în mod explicit în informațiile disponibile. Cu toate acestea, GPT-4.5 a arătat îmbunătățiri în anumite domenii în comparație cu predecesorii săi. De exemplu, se comportă mai bine în recunoașterea modelelor și în desenarea conexiunilor, care ar putea îmbunătăți capacitățile sale de depanare [5].

În ceea ce privește evaluările specifice, GPT-4.5 se desfășoară, în general, la egal cu GPT-4O și O1 în refuzul conținutului nesigur și în unele evaluări legate de siguranță [1] [4]. Cu toate acestea, atunci când vine vorba de precizie în a răspunde la întrebări, GPT-4.5 a arătat îmbunătățiri semnificative în anumite seturi de date. De exemplu, în setul de date PersonQA, care evaluează halucinațiile și precizia, GPT-4.5 atinge o precizie de 0,78 și o rată de halucinație de 0,19, depășind GPT-4O și O1 [1] [4].

În ceea ce privește corectitudinea și evaluările prejudecăților, GPT-4.5 funcționează în mod similar cu GPT-4O, dar este depășit de O1 în furnizarea de răspunsuri imparțiale la întrebări fără ambiguitate [1] [4]. În timp ce GPT-4.5 a demonstrat îmbunătățiri în gestionarea mesajelor conflictuale și aderarea la instrucțiunile de siguranță, precizia sa generală în întrebările de depanare în mod specific nu este comparată direct cu GPT-4O și O1 în datele disponibile [1] [4].

În general, capacitatea GPT-4.5 de a recunoaște tiparele și de a atrage conexiunile poate spori performanța sa în sarcinile de depanare, dar comparațiile specifice în acest domeniu sunt limitate. Observatorii industriei au remarcat îmbunătățiri ale anumitor sarcini, cum ar fi extragerea datelor, în care GPT-4.5 depășește GPT-4O prin extragerea câmpurilor mai exact [7]. Cu toate acestea, în informațiile disponibile nu sunt furnizate comparații detaliate special pentru întrebările de depanare.

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-AI-Model-Release
]
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-hich-is-the-better/746991