GPT-4.5 Vurdering: Avbøtende CBRN og overtalelsesrisiko

Hvor effektiv er GPT-4.5 i avbøtende risikoer relatert til CBRN og overtalelse

GPT-4.5 er vurdert for effektiviteten i å avbøte risikoer relatert til kjemiske, biologiske, radiologiske og kjernefysiske trusler og overtalelser. Her er en detaljert oversikt over dens evner og avbøtninger:

CBRN Risiko

GPT-4.5 er klassifisert som en middels risiko for CBRN-trusler. Denne klassifiseringen er basert på evalueringer som vurderer modellens evne til å hjelpe til med den operative planleggingen av å reprodusere kjente biologiske trusler. Imidlertid anses denne risikoen som begrenset fordi den først og fremst hjelper eksperter som allerede har betydelig domenekompetanse [1].

For å dempe CBRN-risikoer, bruker GPT-4.5 flere strategier:

- Forhåndsopplæring: Modellen filtrerer ut data relatert til CBRN-spredning som har begrenset eller ingen legitim bruk. Dette bidrar til å redusere modellens eksponering for potensielt farlig informasjon [1].
- Modell robusthet: GPT-4.5 er designet for å tåle ondsinnede og motstridende brukere ved å forbedre evnen til å motstå manipulering relatert til CBRN-trusler [1].
- Overvåking og deteksjon: Dedikert innsats gjøres for å overvåke og oppdage aktiviteter relatert til CBRN -oppgaver, og sikrer at noe misbruk raskt blir identifisert og adressert [1].

Overtalelsesrisiko

GPT-4.5 har også en middels risikofylt betegnelse for overtalelse. Dette skyldes den moderne ytelsen når det gjelder å generere overbevisende innhold, som kan brukes til å manipulere tro eller handlinger [2].

For å adressere overtalelsesrisiko, inkorporerer GPT-4.5 følgende avbøtninger:

- Sikkerhetstrening: Modellen gjennomgår spesifikk trening for å håndtere politiske overtalelsesoppgaver på en ansvarlig måte, med sikte på å forhindre misbruk for å påvirke eller manipulere opinionen [1].
- Overvåking av påvirkningsoperasjoner: Det pågår pågående overvåking og etterforskning av mistenkte overgrep relatert til påvirkningsoperasjoner, ekstremisme og urettmessige politiske aktiviteter. Dette hjelper til med å identifisere og dempe potensielle overtalelsesrisikoer [1].
- Omvurderende overtalelsesvurderinger: Openai revurderer sin tilnærming til å vurdere overtalelsesrisikoer i den virkelige verden, med fokus på faktorer som innholdstjeneste, distribusjon og presentasjon over tid [2].

Totalt sett, mens GPT-4.5 presenterer middels risiko for både CBRN og overtalelse, bruker den et robust sett med avbøtninger for å minimere disse risikoene. Disse inkluderer avansert filtrering, sikkerhetstrening og kontinuerlig overvåking for å sikre at modellen brukes ansvarlig og trygt.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_card_sy_card_card_sy_sy_card_card_sy_sy_card_sy_card_card_sy_sy_card_card_sy_card_card_systemet
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-Jhchs-nist-AI-6001-Rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciaGeSo.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-irsevonsible/