Hodnocení GPT-4.5: Zmírnění rizik CBRN a přesvědčování

Jak efektivní je GPT-4,5 při zmírňování rizik souvisejících s CBRN a přesvědčováním

GPT-4.5 byla hodnocena z hlediska jeho účinnosti při zmírňování rizik souvisejících s chemickými, biologickými, radiologickými a jadernými (CBRN) a přesvědčováním. Zde je podrobný přehled o jeho schopnostech a zmírnění:

CBRN RISES

GPT-4.5 je klasifikován jako střední riziko pro hrozby CBRN. Tato klasifikace je založena na hodnocení, která hodnotí schopnost modelu pomáhat při provozním plánování reprodukce známých biologických hrozeb. Toto riziko je však považováno za omezené, protože primárně pomáhá odborníkům, kteří již mají značné znalosti domény [1].

Pro zmírnění rizik CBRN využívá GPT-4.5 několik strategií:

- Zmírnění před tréninkem: Model odfiltruje data týkající se proliferace CBRN, která má omezené nebo žádné legitimní použití. To pomáhá snížit expozici modelu potenciálně nebezpečným informacím [1].
- Robustnost modelu: GPT-4.5 je navržen tak, aby odolal škodlivým a kontradiktorním uživatelům zlepšením jeho schopnosti odolat manipulaci související s hrozbami CBRN [1].
- Monitorování a detekce: Vyvíjené úsilí je vyvíjeno pro sledování a detekce činností souvisejících s úkoly CBRN, což zajišťuje, že jakékoli zneužití bude rychle identifikováno a řešeno [1].

Přesvědčivá rizika

GPT-4.5 také nese středně rizikové označení pro přesvědčování. Důvodem je jeho nejmodernější výkon při vytváření přesvědčivého obsahu, který by mohl být použit k manipulaci s přesvědčeními nebo akcími [2].

Abychom řešili rizika přesvědčování, GPT-4.5 zahrnuje následující zmírnění:

- Bezpečnostní školení: Model prochází specifickým školením, aby se zodpovědně zabýval úkoly politického přesvědčování, s cílem zabránit zneužití pro ovlivňování nebo manipulaci s veřejným míněním [1].
- Monitorování Operace vlivu: Probíhá sledování a zkoumání podezření na zneužívání související s ovlivňováním operací, extremismu a nesprávných politických činností. To pomáhá identifikovat a zmírnit potenciální rizika přesvědčování [1].
- Přehodnocení hodnocení přesvědčování: OpenAI přehodnocuje svůj přístup k hodnocení rizik přesvědčování v reálném světě a zaměřuje se na faktory, jako je personalizace obsahu, distribuce a prezentace v průběhu času [2].

Celkově, zatímco GPT-4.5 představuje střední rizika jak pro CBRN, tak pro přesvědčování, používá robustní soubor zmírňování, aby se tato rizika minimalizovala. Patří mezi ně pokročilé filtrování, bezpečnostní školení a nepřetržité monitorování, aby bylo zajištěno, že model je používán zodpovědně a bezpečně.

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaeHuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-4-5_system_card_2272025.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-JHCHS-NIST-AI-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-catgpt-4o-the-good-the-tad-the-iresponsible/