GPT-4,5 vs GPT-4O: hallutsinatsioonide vähendamine ja täpsuse võrdlus

Kuidas võrrelda GPT-4.5 etendust GPT-4O-ga hallutsinatsioonide osas

GPT-4.5 ja GPT-4O on mõlemad arenenud keelemudelid, mille on välja töötanud OpenAi, millest igaühel on eelkäijate suhtes selged parandused. Kui võrrelda nende tulemusi hallutsinatsioonide osas, näitab GPT-4.5 hallutsinatsioonimäärade olulist vähenemist võrreldes GPT-4O-ga.

hallutsinatsiooni vähendamine GPT-4,5-s

-Hallutsinatsiooni määr: GPT-44.5 hallutsinatsiooni määr on umbes 19%, kui seda testitakse PersonalQA andmestikus, mis on GPT-4O määraga võrreldes oluline paranemine umbes 52% [2] [5]. See vähenemine näitab, et GPT-4.5 on usaldusväärsem ja vähem altid teabe genereerimisele, mis ei ole faktilisi andmeid põhjendatud.
-Parandamise tehnikad: hallutsinatsioonide vähenemine GPT-4,5-s omistatakse uutele järelevalvetehnikatele koos traditsiooniliste meetoditega, nagu juhendatud peenhäälestamine (SFT) ja tugevdusõpe inimese tagasisidest (RLHF) [1]. Need meetodid aitavad parandada mudeli faktilist täpsust ja usaldusväärsust.

jõudluse võrdlus

-Täpsus: Personalqa andmestiku täpsuse osas saavutab GPT-4.5 kõrgema täpsuse 78%, võrreldes GPT-4O 28%-ga [2] [5]. See viitab sellele, et mitte ainult GPT-4,5 hallutsineerib vähem, vaid annab ka täpsemaid vastuseid.
- Üldine usaldusväärsus: GPT-44.5 madalam hallutsinatsiooni määr ja suurem täpsus muudavad selle täpsemaks ja usaldusväärse teabe vajavate rakenduste jaoks usaldusväärsema valiku. Mõlemad mudelid toimivad siiski teatud hinnangutes, näiteks õigluse ja eelarvamuste hindamisel [5].

Kokkuvõtlikult võib öelda, et GPT-4,5 edestab GPT-4O hallutsinatsiooni vähendamise ja täpsuse osas, muutes selle usaldusväärsemaks ülesannete jaoks, mis nõuavad täpset ja faktilist teavet. Kuid mõlemal mudelil on oma tugevused ja nõrkused erinevatel domeenidel ja hinnangutel.

Tsitaadid:
[1] https://topololtads.com/openai-release-gpt-4-5/
]
]
]
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
]
]