Valutazione GPT-4.5: mitigazione di CBRN e rischi di persuasione

Quanto è efficace GPT-4.5 nel mitigare i rischi correlati al CBRN e alla persuasione

GPT-4.5 è stato valutato per la sua efficacia nel mitigare i rischi relativi alle minacce e alla persuasione chimica, biologica, radiologica e nucleare (CBRN). Ecco una panoramica dettagliata delle sue capacità e mitigazioni:

rischi CBRN

GPT-4.5 è classificato come un rischio medio per le minacce CBRN. Questa classificazione si basa su valutazioni che valutano la capacità del modello di aiutare nella pianificazione operativa della riproduzione di minacce biologiche note. Tuttavia, questo rischio è considerato limitato perché aiuta principalmente esperti che possiedono già una significativa competenza di dominio [1].

Per mitigare i rischi CBRN, GPT-4.5 impiega diverse strategie:

- Mitigazioni di pre-allenamento: il modello filtra i dati relativi alla proliferazione CBRN che ha un uso limitato o legittimo. Ciò aiuta a ridurre l'esposizione del modello a informazioni potenzialmente pericolose [1].
- Robustezza del modello: GPT-4.5 è progettato per resistere agli utenti dannosi e contraddittori migliorando la sua capacità di resistere alla manipolazione relativa alle minacce CBRN [1].
- Monitoraggio e rilevamento: vengono compiuti sforzi dedicati per monitorare e rilevare le attività relative alle attività CBRN, garantendo che qualsiasi uso improprio venga identificato e affrontato rapidamente [1].

Rischi di persuasione

GPT-4.5 porta anche una designazione a rischio medio per la persuasione. Ciò è dovuto alla sua performance all'avanguardia nel generare contenuti persuasivi, che potrebbero essere utilizzati per manipolare credenze o azioni [2].

Per affrontare i rischi di persuasione, GPT-4.5 incorpora le seguenti mitigazioni:

- Allenamento per la sicurezza: il modello subisce una formazione specifica per gestire in modo responsabile i compiti di persuasione politica, con l'obiettivo di prevenire l'abuso per influenzare o manipolare l'opinione pubblica [1].
- Monitoraggio delle operazioni di influenza: è in corso monitoraggio e indagine su sospetti abusi relativi alle operazioni di influenza, all'estremismo e alle attività politiche improprie. Questo aiuta a identificare e mitigare i potenziali rischi di persuasione [1].
- Reconsiderando valutazioni di persuasione: Openi sta rivalutando il suo approccio alla valutazione dei rischi di persuasione del mondo reale, concentrandosi su fattori come la personalizzazione del contenuto, la distribuzione e la presentazione nel tempo [2].

Nel complesso, mentre GPT-4.5 presenta rischi medi sia per CBRN che per la persuasione, impiega una solida serie di mitigazioni per ridurre al minimo questi rischi. Questi includono filtraggio avanzato, formazione per la sicurezza e monitoraggio continuo per garantire che il modello venga utilizzato in modo responsabile e sicuro.

Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://paticiagesoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-the-the-iRresponsible/