GPT-4.5 Evaluering: Mitigering af CBRN og overtalelsesrisici

Hvor effektiv er GPT-4.5 i formildende risici relateret til CBRN og overtalelse

GPT-4.5 er blevet vurderet for dens effektivitet i afbødning af risici relateret til kemiske, biologiske, radiologiske og nukleare (CBRN) trusler og overtalelse. Her er en detaljeret oversigt over dens kapaciteter og formilder:

CBRN Risici

GPT-4.5 er klassificeret som en mellemlang risiko for CBRN-trusler. Denne klassificering er baseret på evalueringer, der vurderer modellens evne til at hjælpe med den operationelle planlægning af gengivelse af kendte biologiske trusler. Imidlertid betragtes denne risiko som begrænset, fordi den primært hjælper eksperter, der allerede har betydelig domæneekspertise [1].

For at afbøde CBRN-risici anvender GPT-4.5 flere strategier:

- Foruddannelse afmitigationer: Modellen filtrerer data relateret til CBRN-spredning, der har begrænset eller ingen legitim brug. Dette hjælper med at reducere modellens eksponering for potentielt farlig information [1].
- Model robusthed: GPT-4.5 er designet til at modstå ondsindede og modstridende brugere ved at forbedre dens evne til at modstå manipulation relateret til CBRN-trusler [1].
- Overvågning og detektion: Der gøres dedikeret indsats for at overvåge og opdage aktiviteter relateret til CBRN -opgaver, hvilket sikrer, at enhver misbrug hurtigt identificeres og adresseres [1].

Overtalelsesrisici

GPT-4.5 bærer også en mellemlang risikobetegnelse for overtalelse. Dette skyldes dets avancerede præstation i at generere overbevisende indhold, som kunne bruges til at manipulere tro eller handlinger [2].

For at tackle overtalelsesrisici inkorporerer GPT-4.5 følgende afbødninger:

- Sikkerhedsuddannelse: Modellen gennemgår specifik uddannelse til at håndtere politiske overtalelsesopgaver ansvarligt med det formål at forhindre misbrug til at påvirke eller manipulere den offentlige mening [1].
- Overvågning af indflydelsesoperationer: Der er løbende overvågning og undersøgelse af mistænkte overgreb relateret til indflydelsesoperationer, ekstremisme og forkerte politiske aktiviteter. Dette hjælper med at identificere og afbøde potentielle overtalelsesrisici [1].
- Genovervejelse af overtalelsesvurderinger: Openai revurderer sin tilgang til vurdering af overtalelsesrisici i den virkelige verden og fokuserer på faktorer som indholdspersonalisering, distribution og præsentation over tid [2].

Samlet set, mens GPT-4.5 præsenterer mellemstore risici for både CBRN og overtalelse, anvender det et robust sæt afmindinger for at minimere disse risici. Disse inkluderer avanceret filtrering, sikkerhedstræning og kontinuerlig overvågning for at sikre, at modellen bruges ansvarligt og sikkert.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-i-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
)