Antropic zagotavlja varnost in zanesljivost AI z več ukrepi, vključno s testiranjem stresa, varnostnimi protokoli in odgovorno politiko skaliranja [1]. Za določitev varnostnih ukrepov, ki temeljijo na potencialnih tveganjih [2] [3], uporabljajo varnostne ravni AI (ASL), modelirane po ravni biološke varnosti.
Ključne komponente varnostnega pristopa antropika:
* Odgovorna politika skaliranja (RSP) Antropic uporablja sistem varnostnih ravni AI (ASL) [3]. Če sistem AI prikazuje določene nevarne zmogljivosti, se antropični zaveže, da ga ne bo uporabil ali usposabljal močnejše modele, dokler ne bodo izvedeni posebni zaščitni ukrepi [3].
* Pogosto testiranje antropskih testov pogosto za nevarne zmogljivosti v rednih presledkih, da se zagotovi, da nevarne zmogljivosti ne ustvarjajo nevede [3].
* Ocene modela, namenjene odkrivanju nevarnih zmogljivosti, te ocene delujejo kot konservativni "opozorilni znaki", da preprečijo slučajno presegajo kritične varnostne pragove [2]. Ocene so lahko sestavljene iz več težavnosti, kjer se poznejše faze izvajajo le, če prejšnje ocene kažejo opozorilne znake [2].
* Proceduralne zaveze ASL -ji določajo, kaj mora biti veljalo za antropske modele in varnost, da se omogoči varno usposabljanje in uvajanje [2].
* Spremljanje in beleženje: Za notranjo uporabo se ustvarijo ustvarjeni izhodi in ustrezni vhodi zabeleženi in zadržani vsaj 30 dni. Ti dnevniki se spremljajo zaradi nenormalne aktivnosti, alarmi pa se jemljejo resno in se takoj odzovejo [2].
* Osebni dostop: V omejenih primerih so modeli z zmogljivostmi, ki so pomembne za katastrofalno škodo zadosten nadzor [2].
* Ranljivost in razkritje incidentov: Antropic sodeluje v procesu ranljivosti in razkritja incidentov z drugimi laboratoriji (ob upoštevanju varnostnih ali pravnih omejitev), ki zajema rezultate rdečega povezovanja, grožnje z nacionalno varnostjo in grožnje z avtonomno podvajanjem [2].
* Hiter odziv na modelne ranljivosti: Ko je obveščen o novo odkriti ranljivosti modela, ki omogoča katastrofalno škodo, se antropični zaveže, da jo takoj ublaži ali oblikuje [2].
* Dvostopenjski nadzor: Uporablja se za vse sisteme, ki sodelujejo pri razvoju, usposabljanju, gostovanju in uvajanju mejnih modelov AI, to vključuje sistemsko zasnovo, kjer nobena oseba nima vztrajnega dostopa do proizvodnega kritičnega okolja; Namesto tega morajo s sodelavcem zahtevati časovno omejen dostop s poslovno utemeljitvijo [8].
* Uporabniške varnostne funkcije Ti vključujejo modele zaznavanja, da označujejo potencialno škodljive vsebine, varnostne filtre na pozive in izboljšane varnostne filtre za uporabnike, ki večkrat kršijo pravilnike [7].
Antropic uporablja tudi modele odkrivanja za označevanje potencialno škodljivih vsebinskih in varnostnih filtrov na pozive [7]. Aktivno vlagajo v in eksperimentirajo z dodatnimi varnostnimi funkcijami in zagotavljajo orodja za ublažitev škode, uporabnike pa spodbujajo k zagotavljanju povratnih informacij o teh ukrepih [7].
Navedbe:
[1] https://myscale.com/blog/Transformative-influence-anthropic-ai-safety---------measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958C2EE23805d91Aaade1cd4613/reponsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://acceleriacononom.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/sl/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security