Ako antropický zaisťuje bezpečnosť a spoľahlivosť svojho modelu AI Hybrid

Anthropic zaisťuje bezpečnosť a spoľahlivosť AI prostredníctvom niekoľkých opatrení vrátane stresového testovania, bezpečnostných protokolov a zodpovednej politiky škálovania [1]. Využívajú úrovne bezpečnosti AI (ASL), modelované po úrovniach biologickej bezpečnosti, na stanovenie bezpečnostných opatrení na základe potenciálnych rizík [2] [3].

Kľúčové komponenty bezpečnostného prístupu Antropic:
* Zodpovedná politika škálovania (RSP) Anthropic využíva systém úrovní bezpečnosti AI (ASL) [3]. Ak systém AI demonštruje určité nebezpečné schopnosti, antropické sa zaväzuje, že ho nezasuší alebo necvičí výkonnejšie modely, kým sa nebudú implementovať konkrétne záruky [3].
* Časté testovanie antropických testov často v pravidelných intervaloch, aby sa zabezpečilo, že nebezpečné schopnosti sa nevedomky nevytvárajú [3].
* Vyhodnotenia modelu určené na detekciu nebezpečných schopností, tieto hodnotenia pôsobia ako konzervatívne „výstražné príznaky“, aby sa zabránilo náhodnému prekročeniu kritických prahov bezpečnosti [2]. Hodnotenia môžu pozostávať z viacerých etáp obtiažnosti, kde sa spúšťajú neskoršie fázy, iba ak predchádzajúce hodnotenia ukazujú výstražné príznaky [2].
* Procedurálne záväzky ASLS špecifikujú, čo musí platiť pre modely a bezpečnosť Antropic, aby sa umožnilo bezpečné školenie a nasadenie [2].
* Monitorovanie a protokolovanie: Na interné využitie sú vygenerované výstupy a zodpovedajúce vstupy zaznamenané a zachované najmenej 30 dní. Tieto protokoly sa monitorujú na abnormálnu aktivitu a poplachy sa berú vážne a okamžite reagujú [2].
* Tiered Access: V obmedzených prípadoch môžu byť modely s schopnosťami relevantné pre katastrofické poškodenie k dispozícii pre vybranú skupinu preverených používateľov s legitímnym a prospešným prípadom použitia, ktoré nemožno oddeliť od nebezpečných schopností za predpokladu, že prístup môže byť poskytnutý bezpečne a s. dostatočný dohľad [2].
* Zraniteľnosť a zverejnenie incidentov: Antropické zapojenie do procesu zraniteľnosti a zverejňovania incidentov s inými laboratóriami (podliehajúcimi bezpečnostným alebo právnym obmedzeniam), ktoré pokrývajú výsledky červeného tímu, hrozby národnej bezpečnosti a autonómne hrozby replikácie [2].
* Rýchla reakcia na zraniteľné miesta modelu: Pri informovaní o novoobjavenej zraniteľnosti modelu, ktorý umožňuje katastrofické poškodenie, antropické sa zaväzuje okamžite zmierniť alebo opraviť [2].
* Ovládanie dvoch strán: Aplikované na všetky systémy zapojené do vývoja, výcviku, hostingu a rozmiestnenia modelov AI Frontier To zahŕňa dizajn systému, v ktorom žiadna osoba nemá pretrvávajúci prístup k výrobnému kritickému prostrediu; Namiesto toho musia požadovať časovo obmedzený prístup od spolupracovníka s odôvodnením podnikania [8].
* Medzi bezpečnostné funkcie používateľov patrí detekčné modely na označenie potenciálne škodlivého obsahu, bezpečnostné filtre na výzvy a vylepšené bezpečnostné filtre pre používateľov, ktorí opakovane porušujú politiky [7].

Anthropic tiež používa detekčné modely na označenie potenciálne škodlivého obsahu a filtrov bezpečnosti na výzvy [7]. Aktívne investujú do a experimentujú s ďalšími bezpečnostnými funkciami a poskytujú nástroje na zmiernenie ujmy a povzbudzujú používateľov, aby poskytovali spätnú väzbu na tieto opatrenia [7].

Citácie:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safetymeasures/
[2] https://www-cdn.anthropic.com/1ADF000C8F675958C2EE23805D91AAADE1CD4613/Responsible-Scaling-policy.pdfdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/Ai/anthropic-leads-the-canction-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-nthropics-ai-Safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

Odpoveď z porážky: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output