GPT-4.5 novērtējums: CBRN un pārliecināšanas risku mazināšana

Cik efektīvs ir GPT-4.5 mīkstinošos riskos, kas saistīti ar CBRN un pārliecināšanu

Tika novērtēta GPT-4.5, lai tā efektivitāti mazinātu riskus, kas saistīti ar ķīmiskiem, bioloģiskiem, radioloģiskiem un kodolieročiem (CBRN) draudiem un pārliecināšanu. Šeit ir detalizēts pārskats par tās iespējām un mazinājumiem:

CBRN riski

GPT-4.5 tiek klasificēts kā vidējs CBRN draudu risks. Šīs klasifikācijas pamatā ir novērtējumi, kas novērtē modeļa spēju palīdzēt operatīvajā plānošanā zināmo bioloģisko draudu reproducēšanai. Tomēr šis risks tiek uzskatīts par ierobežotu, jo tas galvenokārt palīdz ekspertiem, kuriem jau ir ievērojamas zināšanas par jomu [1].

Lai mazinātu CBRN riskus, GPT-4.5 izmanto vairākas stratēģijas:

- Pirms apmācības mazināšanas: modelis filtrē datus, kas saistīti ar CBRN proliferāciju, kas ir ierobežota vai nav likumīga. Tas palīdz samazināt modeļa iedarbību uz potenciāli bīstamu informāciju [1].
- Modeļa izturība: GPT-4.5 ir paredzēts, lai izturētu ļaunprātīgus un pretrunīgus lietotājus, uzlabojot spēju pretoties manipulācijām, kas saistītas ar CBRN draudiem [1].
- Pārraudzība un atklāšana: tiek veikti īpaši centieni, lai uzraudzītu un noteiktu darbības, kas saistītas ar CBRN uzdevumiem, nodrošinot, ka tiek ātri identificēta un risināta jebkāda ļaunprātīga izmantošana [1].

Pārliecināšanas riski

GPT-4.5 ir arī vidēja riska apzīmējums pārliecināšanai. Tas ir saistīts ar tā vismodernāko sniegumu pārliecinoša satura radīšanā, ko varētu izmantot, lai manipulētu ar uzskatiem vai darbībām [2].

Lai risinātu pārliecināšanas riskus, GPT-4.5 iekļauj šādus mazinājumus:

- Drošības apmācība: modelim tiek veikta īpaša apmācība, lai atbildīgi rīkotos ar politiskām pārliecināšanas uzdevumiem, kuras mērķis ir novērst ļaunprātīgu izmantošanu sabiedriskās domas ietekmēšanai vai manipulācijai [1].
- Ietekmēšanas operāciju uzraudzība: notiek aizdomas par aizdomām par iespējamiem pārkāpumiem, kas saistīti ar ietekmes operācijām, ekstrēmismu un nepareizām politiskām darbībām. Tas palīdz identificēt un mazināt iespējamos pārliecināšanas riskus [1].
- Pārliecināšanas novērtēšanas pārskatīšana: Openai atkārtoti novērtē savu pieeju reālās pasaules pārliecināšanas risku novērtēšanai, koncentrējoties uz tādiem faktoriem kā satura personalizācija, izplatīšana un prezentācija laika gaitā [2].

Kopumā, lai gan GPT-4.5 rada vidējus risku gan CBRN, gan pārliecināšanai, tas izmanto stabilu mazinājumu kopumu, lai samazinātu šos riskus. Tie ietver uzlabotu filtrēšanu, drošības apmācību un nepārtrauktu uzraudzību, lai nodrošinātu, ka modelis tiek izmantots atbildīgi un droši.

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdftft-4-5_system_card_2272025.pdftft-4-5_system_card_2272025.pdftft-4-5_system_card
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
.