GPT-4.5 ja GPT-4O on mõlemad arenenud keelemudelid, mille on välja töötanud OpenAi, millest igaühel on eelkäijate suhtes selged parandused. Kui võrrelda nende tulemusi hallutsinatsioonide osas, näitab GPT-4.5 hallutsinatsioonimäärade olulist vähenemist võrreldes GPT-4O-ga.
hallutsinatsiooni vähendamine GPT-4,5-s
-Hallutsinatsiooni määr: GPT-44.5 hallutsinatsiooni määr on umbes 19%, kui seda testitakse PersonalQA andmestikus, mis on GPT-4O määraga võrreldes oluline paranemine umbes 52% [2] [5]. See vähenemine näitab, et GPT-4.5 on usaldusväärsem ja vähem altid teabe genereerimisele, mis ei ole faktilisi andmeid põhjendatud.
-Parandamise tehnikad: hallutsinatsioonide vähenemine GPT-4,5-s omistatakse uutele järelevalvetehnikatele koos traditsiooniliste meetoditega, nagu juhendatud peenhäälestamine (SFT) ja tugevdusõpe inimese tagasisidest (RLHF) [1]. Need meetodid aitavad parandada mudeli faktilist täpsust ja usaldusväärsust.
jõudluse võrdlus
-Täpsus: Personalqa andmestiku täpsuse osas saavutab GPT-4.5 kõrgema täpsuse 78%, võrreldes GPT-4O 28%-ga [2] [5]. See viitab sellele, et mitte ainult GPT-4,5 hallutsineerib vähem, vaid annab ka täpsemaid vastuseid.
- Üldine usaldusväärsus: GPT-44.5 madalam hallutsinatsiooni määr ja suurem täpsus muudavad selle täpsemaks ja usaldusväärse teabe vajavate rakenduste jaoks usaldusväärsema valiku. Mõlemad mudelid toimivad siiski teatud hinnangutes, näiteks õigluse ja eelarvamuste hindamisel [5].
Kokkuvõtlikult võib öelda, et GPT-4,5 edestab GPT-4O hallutsinatsiooni vähendamise ja täpsuse osas, muutes selle usaldusväärsemaks ülesannete jaoks, mis nõuavad täpset ja faktilist teavet. Kuid mõlemal mudelil on oma tugevused ja nõrkused erinevatel domeenidel ja hinnangutel.
Tsitaadid:
[1] https://topololtads.com/openai-release-gpt-4-5/
]
]
]
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
]
]