Antropici AI ohutusmeetmed: usaldusväärsuse ja turvalisuse tagamine

Kuidas tagab antropiline oma hübriid AI mudeli ohutust ja usaldusväärsust

Antropiline tagab AI ohutuse ja usaldusväärsuse mitmete meetmete kaudu, sealhulgas stressitesti, ohutusprotokollid ja vastutustundlik mastaabipoliitika [1]. Nad kasutavad võimalike riskide põhjal ohutusmeetmete kindlaksmääramiseks AI ohutustaset (ASL), mis on modelleeritud pärast bioohutuse taset [2] [3].

Antropici ohutusmeetodi põhikomponendid:
* Vastutustundliku skaleerimispoliitika (RSP) antropiline kasutab AI ohutustasemete süsteemi (ASL) [3]. Kui AI -süsteem demonstreerib teatud ohtlikke võimalusi, kohustub antropiline selle kasutusele võtma ega võimsamaid mudeleid koolitama, kuni konkreetsed kaitsemeetmed rakendatakse [3].
* Regulaarsete intervallidega sageli ohtlike võimete sagedased testimised, et tagada ohtlike võimete teadmata [3].
* Ohtlike võimaluste tuvastamiseks mõeldud mudeli hindamine on need hinnangud konservatiivsete hoiatusmärkidena, et vältida kogemata ületamist kriitiliste ohutuslävede ületamist [2]. Hindamine võib koosneda mitmest raskusastmest, kus hilisemaid etappe korraldatakse ainult siis, kui varasemad hinnangud näitavad hoiatusmärke [2].
* Protseduurilised kohustused ASL -id täpsustavad, mis peab olema antropilise mudelite ja turvalisuse kohta, et võimaldada ohutut koolitust ja juurutamist [2].
* Jälgimine ja logimine: Sisekasutuseks logitakse ja säilitatakse vähemalt 30 päeva jooksul genereeritud väljundid ja vastavad sisendid. Neid logisid jälgitakse ebanormaalse tegevuse osas ning häired võetakse tõsiselt ja nad vastavad kohe [2].
* Mitmetasandiline juurdepääs: piiratud juhtudel võivad katastroofilise kahjuga seotud võimalused, mis on kontrollitud kasutajate valitud rühmale, millel on õigustatud ja kasulik kasutusjuhtum, mida ei saa ohtlikest võimalustest eraldada, kui pääseda juurdepääsule turvaliselt ja koos ohutult. piisav järelevalve [2].
* Haavatavus ja juhtumite avalikustamine: antropiline tegeleb haavatavuse ja juhtumite avalikustamise protsessi teiste laboritega (sõltuvalt turvalisusest või juriidilistest piirangutest), mis hõlmavad punaste meetmete tulemusi, riikliku julgeoleku ohte ja autonoomseid replikatsiooniohte [2].
* Kiire reageerimine mudeli haavatavustele: kui seda teavitatakse äsja avastatud mudeli haavatavusest, mis võimaldab katastroofilist kahju, kohustub antropiline kohustus seda viivitamatult leevendada või lappida [2].
* Kaheparteiline juhtimine: rakendatakse kõigil süsteemidel, mis on seotud piiri AI mudelite väljatöötamise, koolitamise, hostimise ja juurutamisega, see hõlmab süsteemi kujundamist, kus ühelgi inimesel pole püsiv juurdepääs tootmiskriitilisele keskkonnale; Selle asemel peavad nad taotlema ajaliselt piiratud juurdepääsu töökaaslaselt, kellel on ettevõtte õigustus [8].
* Kasutajaohutusfunktsioonid Need hõlmavad tuvastusmudeleid potentsiaalselt kahjuliku sisu märgistamiseks, viipikute ohutusfiltrid ja täiustatud ohutusfiltrid kasutajatele, kes rikuvad korduvalt poliitikat [7].

Antropiline kasutab tuvastusmudeleid ka kahjulike sisu ja ohutusfiltrite märgistamiseks viipingutel [7]. Nad investeerivad aktiivselt täiendavaid ohutusfunktsioone ja neid katsetavad ning pakuvad tööriistu kahju leevendamiseks ning julgustavad kasutajaid nende meetmete kohta tagasisidet andma [7].

Tsitaadid:
]
]
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationConomy.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
]
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
]