Evaluare GPT-4.5: atenuarea riscurilor CBRN și persuasiune

Cât de eficient este GPT-4.5 în atenuarea riscurilor legate de CBRN și persuasiune

GPT-4.5 a fost evaluat pentru eficacitatea sa în atenuarea riscurilor legate de amenințările chimice, biologice, radiologice și nucleare (CBRN) și persuasiune. Iată o imagine de ansamblu detaliată a capacităților și atenuațiilor sale:

Riscuri CBRN

GPT-4.5 este clasificat ca un risc mediu pentru amenințările CBRN. Această clasificare se bazează pe evaluări care evaluează capacitatea modelului de a ajuta la planificarea operațională a reproducerii amenințărilor biologice cunoscute. Cu toate acestea, acest risc este considerat limitat, deoarece ajută în primul rând experți care dețin deja expertiză semnificativă în domeniu [1].

Pentru atenuarea riscurilor CBRN, GPT-4.5 folosește mai multe strategii:

- atenuarea pre-instruirii: modelul filtrează datele referitoare la proliferarea CBRN care are o utilizare limitată sau deloc legitimă. Acest lucru ajută la reducerea expunerii modelului la informații potențial periculoase [1].
- Model Robusteness: GPT-4.5 este conceput pentru a rezista utilizatorilor rău intenționați și adversari, îmbunătățindu-și capacitatea de a rezista manipulării legate de amenințările CBRN [1].
- Monitorizare și detectare: se depun eforturi dedicate pentru a monitoriza și detecta activități legate de sarcinile CBRN, asigurându -se că orice utilizare necorespunzătoare este identificată și abordată rapid [1].

Riscuri de persuasiune

GPT-4.5 poartă, de asemenea, o desemnare de risc mediu pentru persuasiune. Acest lucru se datorează performanței sale de ultimă generație în generarea de conținut persuasiv, care ar putea fi utilizat pentru manipularea credințelor sau acțiunilor [2].

Pentru a aborda riscurile de persuasiune, GPT-4.5 încorporează următoarele atenuații:

- Instruire în siguranță: Modelul este supus unei instruiri specifice pentru a gestiona sarcinile de persuasiune politică în mod responsabil, urmărind să prevină utilizarea necorespunzătoare pentru influențarea sau manipularea opiniei publice [1].
- Operațiuni de influență de monitorizare: Există monitorizarea continuă și investigarea abuzurilor suspectate legate de operațiunile de influență, extremismul și activitățile politice necorespunzătoare. Acest lucru ajută la identificarea și atenuarea riscurilor potențiale de persuasiune [1].
- Reconsiderarea evaluărilor de persuasiune: OpenAI își reevaluează abordarea pentru evaluarea riscurilor de persuasiune din lumea reală, concentrându-se pe factori precum personalizarea conținutului, distribuirea și prezentarea în timp [2].

În general, în timp ce GPT-4.5 prezintă riscuri medii atât pentru CBRN, cât și pentru persuasiune, acesta folosește un set robust de atenuări pentru a minimiza aceste riscuri. Acestea includ filtrarea avansată, instruirea în siguranță și monitorizarea continuă pentru a se asigura că modelul este utilizat în mod responsabil și în siguranță.

Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfasses.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-AI-6001-rfc.pdf
[4] https://model-pec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-irresponsible/