GPT-4.5, viimeisin OpenAI: n malli, osoittaa hallusinaatioasteen merkittävän vähenemisen edeltäjiinsä verrattuna. Vaikka se osoittaa yleensä noin 37%: n hallusinaatioasteen, on olemassa erityisiä alueita ja arviointeja, joissa sen suorituskyky on huomattavasti parempi.
Hallusinaation vähentämistekniikat
GPT-4.5 työllistää uusia valvontatekniikoita, mukaan lukien valvottu hienosäätö (SFT) ja vahvistusoppiminen ihmisen palautteesta (RLHF), jotka edistävät sen alemman hallusinaatioasteen [1] [3]. Nämä menetelmät auttavat parantamaan mallin tarkkuutta ja luotettavuutta varmistamalla, että se tuottaa tosiasiallisiin tietoihin perustuvaa tietoa.
Suorituskyky tietyillä verkkotunnuksilla
- Personqa-arviointi: Personqa-aineistossa, joka testaa mallin kykyä vastata ihmisiin tarkasti, GPT-4,5 näyttää noin 19%: n hallusinaatioasteen. Tämä on alhaisempi kuin sen kokonaisprosentti ja osoittaa, että GPT-4.5: n tosiasiatiedot sisältävillä alueilla on hyvin vähemmän hallusinaatioita [3].
-Kieliin liittyvät tehtävät: GPT-4.5 Excles in Firct and Programming -tehtävät tarjoamalla yksityiskohtaisia selityksiä ja apua käytännön ongelmanratkaisussa. Vaikka näiden tehtävien erityiset hallusinaatioasteet eivät ole yksityiskohtaisia, mallin parannettu kuvioiden tunnistaminen ja laajempi tietokanta edistävät tarkempia ja luotettavampia tuotoksia [1] [5].
- Vertailu muihin malleihin: Tietyissä arvioinnissa, kuten O1-päättelymallissa, GPT-4,5: n hallusinaatioaste on korkeampi (37% vs. 44% O1: lle). GPT-4,5 on kuitenkin suunniteltu yleisempiin sovelluksiin kuin erikoistuneisiin päättelutehtäviin [5].
Kaiken kaikkiaan GPT-4.5: n hallusinaatioaste on erityisen alhainen verkkotunnuksilla, joilla sitä on koulutettu ja arvioitu laajasti, kuten henkilöstötietojoukossa. Sen suorituskyky voi kuitenkin vaihdella eri tehtävissä ja arvioinnissa, mikä heijastaa jatkuvia haasteita AI -mallejen hallusinaatioiden vähentämisessä.
Viittaukset:
[1] https://toposads.com/openai-release-gpt-4-5/
.
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
.
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
.