GPT-4.5 Vertinimas: CBRN ir įtikinėjimo rizikos mažinimas

Kiek efektyvus yra GPT-4.5, mažinant riziką, susijusią su CBRN ir įtikinėjimu

GPT-4.5 buvo įvertintas dėl jo veiksmingumo mažinant riziką, susijusią su cheminės, biologinės, radiologinės ir branduolinės (CBRN) grėsmėmis ir įtikinėjimais. Čia pateikiama išsami jo galimybių ir švelninimo apžvalga:

CBRN rizika

GPT-4.5 yra klasifikuojamas kaip vidutinė CBRR grėsmių rizika. Ši klasifikacija grindžiama vertinimais, kurie įvertina modelio gebėjimą padėti planuoti žinomas biologines grėsmes. Tačiau ši rizika laikoma ribota, nes ji pirmiausia padeda ekspertams, kurie jau turi didelę srities patirtį [1].

Norėdami sušvelninti CBRN riziką, GPT-4.5 naudojamos kelios strategijos:

- Išankstinis mokymas: modelis filtruoja duomenis, susijusius su CBRN dauginimuisi, kurie turi ribotą teisėtas naudojimą arba jo visai nėra. Tai padeda sumažinti modelio potencialiai pavojingos informacijos poveikį [1].
- Modelio patikimumas: GPT-4.5 yra skirtas atlaikyti kenksmingus ir prieštaringus vartotojus, pagerinant jo sugebėjimą atsispirti manipuliacijoms, susijusioms su CBRN grėsmėmis [1].
- Stebėjimas ir aptikimas: Dedamos pastangos stebėti ir aptikti veiklą, susijusią su CBRN užduotimis, užtikrinant, kad bet koks netinkamas naudojimas būtų greitai nustatytas ir išspręstas [1].

Įtikinėjimo rizika

GPT-4.5 taip pat turi vidutinės įtikinėjimo rizikos paskyrimą. Taip yra dėl moderniausio atlikimo generuojant įtikinamą turinį, kuris galėtų būti naudojamas manipuliuoti įsitikinimais ar veiksmais [2].

Norėdami spręsti įtikinimo riziką, GPT-4.5 apima šias švelninimas:

- Saugos mokymas: Modelis mokosi specialiai atsakingai vykdyti politinių įtikinėjimo užduotis, siekiant užkirsti kelią netinkamam įtakos įtakai ar manipuliavimui visuomenės nuomonei [1].
- Stebėjimas įtakos Operacijos: Tęsiamas įtariamų piktnaudžiavimo stebėjimas ir tyrimas, susijęs su įtakos operacijomis, ekstremizmu ir netinkama politine veikla. Tai padeda nustatyti ir sušvelninti galimą įtikinėjimo riziką [1].
- Įtikinėjimo vertinimų persvarstymas: „Openai“ iš naujo įvertina savo požiūrį į realaus pasaulio įtikinėjimo riziką įvertinti, sutelkdamas dėmesį į tokius veiksnius kaip turinio personalizavimas, platinimas ir pateikimas per tam tikrą laiką [2].

Apskritai, nors GPT-4.5 kelia vidutinę CBRN ir įtikinėjimo riziką, tačiau jame naudojamas patikimas švelninimo rinkinys, kad sumažintų šią riziką. Tai apima pažangų filtravimą, saugos mokymą ir nuolatinį stebėjimą, kad būtų užtikrintas atsakingai ir saugiai naudojamas modelis.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_syst_card_2272025.pdf
[3] https://enterforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-iist-ai-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciageso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-reponible/