GPT-4.5, jaunākais Openai modelis, parāda ievērojamu halucinācijas līmeņa samazināšanos salīdzinājumā ar tā priekšgājējiem. Lai gan tas parasti parāda halucinācijas ātrumu aptuveni 37%, ir specifiskas jomas un novērtējumi, kad tā veiktspēja ir īpaši labāka.
Halucinācijas samazināšanas paņēmieni
GPT-4.5 izmanto jaunas uzraudzības metodes, ieskaitot uzraudzītu precizēšanu (SFT) un pastiprināšanas mācīšanos no cilvēku atsauksmēm (RLHF), kas veicina tā zemāko halucinācijas ātrumu [1] [3]. Šīs metodes palīdz uzlabot modeļa precizitāti un uzticamību, nodrošinot, ka tā ģenerē informāciju, kas pamatota ar faktiskajiem datiem.
veiktspēja noteiktos domēnos
- Personqa novērtējums: Personqa datu kopā, kas pārbauda modeļa spēju precīzi atbildēt uz jautājumiem par cilvēkiem, GPT-4.5 parāda halucinācijas līmeni aptuveni 19%. Tas ir zemāks par kopējo likmi un norāda, ka jomās, kas saistīta ar faktisko informāciju par indivīdiem, GPT-4.5 labi darbojas ar mazāk halucinācijām [3].
-Ar valodu saistīti uzdevumi: GPT-4.5 izceļas ar rakstīšanas un programmēšanas uzdevumiem, piedāvājot detalizētus skaidrojumus un palīdzību praktiskā problēmu risināšanā. Kaut arī īpašie halucinācijas ātrumi šiem uzdevumiem nav detalizēti, modeļa uzlabotā modeļa atpazīšana un plašāka zināšanu bāze veicina precīzāku un uzticamāku rezultātu [1] [5].
- Salīdzinājums ar citiem modeļiem: noteiktos novērtējumos, piemēram, O1 spriešanas modelī, GPT-4.5 halucinācijas ātrums ir lielāks (37% pret 44% O1). Tomēr GPT-4.5 ir paredzēts vispārējas nozīmes lietojumprogrammām, nevis specializētiem spriešanas uzdevumiem [5].
Kopumā GPT-4.5 halucinācijas ātrums ir īpaši zems domēnos, kur tas ir plaši apmācīts un novērtēts, piemēram, personas datu kopā. Tomēr tā veiktspēja dažādos uzdevumos un novērtējumos var atšķirties, atspoguļojot notiekošos izaicinājumus halucināciju samazināšanā AI modeļos.
Atsauces:
[1] https://topmostads.com/openai-rease-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_expled_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
.
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-atdates-open-ource-stāvi-diffusion-200k-context-claude-21-139386