Kā antropiski nodrošina tā hibrīda AI modeļa drošību un uzticamību

Antropic nodrošina AI drošību un uzticamību, izmantojot vairākus pasākumus, ieskaitot stresa pārbaudi, drošības protokolus un atbildīgu mērogošanas politiku [1]. Viņi izmanto AI drošības līmeni (ASL), kas modelēts pēc bioloģiskās drošības līmeņa, lai noteiktu drošības pasākumus, pamatojoties uz iespējamiem riskiem [2] [3].

Antropic drošības pieejas galvenie komponenti:
* Atbildīgā mērogošanas politika (RSP) Antropic izmanto AI drošības līmeņu sistēmu (ASL) [3]. Ja AI sistēma demonstrē noteiktas bīstamas spējas, antropiski apņemas to neizvietot vai apmācīt jaudīgākus modeļus, kamēr netiek ieviesti īpaši aizsardzības pasākumi [3].
* Bieži pārbaudot antropiskos testus bieži bīstamām spējām ar regulāriem intervāliem, lai nodrošinātu, ka bīstamās spējas netiek radītas neapzināti [3].
* Modeļa novērtējumi, kas paredzēti bīstamu spēju noteikšanai, šie novērtējumi darbojas kā konservatīvas "brīdinājuma zīmes", lai novērstu nejaušu kritisko drošības slieksni [2]. Novērtējumi var sastāvēt no vairākiem grūtību posmiem, kad vēlākie posmi tiek veikti tikai tad, ja iepriekšējie novērtējumi parāda brīdinājuma zīmes [2].
* Procedūras saistības ASLS norāda, kas ir taisnība par Anthropic modeļiem un drošību, lai ļautu droši apmācīt un izvietot [2].
* Pārraudzība un reģistrēšana: iekšējai lietošanai ģenerētās izejas un atbilstošās ieejas tiek reģistrētas un saglabātas vismaz 30 dienas. Šie žurnāli tiek uzraudzīti par patoloģisku darbību, un trauksmes tiek uztverti nopietni un uzreiz reaģē uz [2].
* Daudzpakāpju piekļuve: ierobežotos gadījumos modeļi ar katastrofālu kaitējumu var būt pieejami atsevišķai pārbaudītu lietotāju grupai ar likumīgu un labvēlīgu lietošanas gadījumiem, kurus nevar atdalīt no bīstamām iespējām, ja piekļuvi var piešķirt droši un ar pietiekama pārraudzība [2].
* Ievainojamība un incidenta atklāšana: Antropisks iesaistās neaizsargātības un starpgadījumu atklāšanas procesā ar citām laboratorijām (ievērojot drošības vai juridiskus ierobežojumus), kas aptver sarkano komandu rezultātus, nacionālās drošības draudus un autonomus replikācijas draudus [2].
* Ātra reakcija uz modeļa ievainojamībām: informējot par jaunatklāto modeļa neaizsargātību, kas ļauj katastrofiski kaitēt, antropiski apņemas to ātri mazināt vai ielāpēt [2].
* Divu partiju kontrole: piemēro visām sistēmām, kas iesaistītas robežas AI modeļu izstrādē, apmācībā, mitināšanā un izvietošanā, tas ietver sistēmas dizainu, kurā nevienai personai nav pastāvīgas piekļuves ražošanai kritiskai videi; Tā vietā viņiem ir jāpieprasa ierobežota laika piekļuve no kolēģa ar biznesa pamatojumu [8].
* Lietotāju drošības funkcijas Tās ietver noteikšanas modeļus, lai atzīmētu potenciāli kaitīgu saturu, uzvednes drošības filtrus un uzlabotus drošības filtrus lietotājiem, kuri atkārtoti pārkāpj politiku [7].

Antropiski izmanto arī atklāšanas modeļus, lai uzvednēs atzīmētu potenciāli kaitīgus satura un drošības filtrus [7]. Viņi aktīvi iegulda un eksperimentē ar papildu drošības funkcijām un nodrošina rīkus kaitējuma mazināšanai, un viņi mudina lietotājus sniegt atgriezenisko saiti par šiem pasākumiem [7].

Atsauces:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/reponible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
.
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-apman-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

Atbilde no apjukuma: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_outputput