GPT-4.5: Izboljšana natančnost z znižanimi stopnjami halucinacije

Ali obstajajo domene, kjer je stopnja halucinacije GPT-4.5 še posebej nizka

GPT-4.5, najnovejši model OpenAI, kaže znatno znižanje stopnje halucinacije v primerjavi s predhodniki. Medtem ko na splošno kaže na približno 37 -odstotno stopnjo halucinacije, obstajajo posebne domene in ocene, kjer je njena uspešnost bistveno boljša.

Tehnike zmanjšanja halucinacije

GPT-4.5 uporablja nove tehnike nadzora, vključno z nadzorovanim natančnim nastavitvijo (SFT) in okrepitvijo iz človeških povratnih informacij (RLHF), ki prispevajo k nižji stopnji halucinacije [1] [3]. Te metode pomagajo izboljšati natančnost in zanesljivost modela, tako da zagotovijo, da ustvari informacije, utemeljene v dejanskih podatkih.

uspešnost v določenih področjih

- Ocenjevanje osebe: V naboru podatkov PersonQA, ki preizkuša sposobnost modela, da natančno odgovarja na vprašanja o ljudeh, GPT-4.5 kaže na stopnjo halucinacije približno 19%. To je nižje od njegove skupne hitrosti in kaže, da v področjih, ki vključujejo dejanske informacije o posameznikih, GPT-4.5 dobro deluje z manj halucinacijami [3].

-Naloge, povezane z jezikom: GPT-4.5 se odlično odreže pri pisanju in programiranju, ki ponuja podrobna pojasnila in pomoč pri praktičnem reševanju problemov. Medtem ko posebne stopnje halucinacije za te naloge niso podrobne, izboljšana prepoznavanje vzorcev in širša baza znanja prispeva k natančnejšim in zanesljivim izhodom [1] [5].

- Primerjava z drugimi modeli: V nekaterih ocenah, kot je model sklepanja O1, je stopnja halucinacije GPT-4.5 višja (37% v primerjavi s 44% za O1). Vendar je GPT-4.5 zasnovan za bolj splošne namenske aplikacije in ne za specializirane naloge sklepanja [5].

Na splošno je stopnja halucinacije GPT-4.5 še posebej nizka na področjih, kjer je bila obsežno usposobljena in ocenjena, na primer v naboru podatkov o personaksu. Vendar pa se lahko njegova uspešnost razlikuje med različnimi nalogami in ocenami, kar odraža nenehne izzive pri zmanjševanju halucinacij v modelih AI.

Navedbe:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45Turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-pecific-data-from-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-New-partdates-open-source-stable-diffusion-200k-context-Claude-21-139386