Kā antropiski nodrošina savu AI modeļu drošību

Antropic nodrošina savu AI modeļu drošību, izmantojot dažādas metodes un politikas, ieskaitot atbildīgo mērogošanas politiku (RSP), AI drošības līmeni (ASL), drošības filtrus un noteikšanas modeļus [2] [5]. Lietotāju drošībai ir galvenā loma Antropic misijā, lai izveidotu uzticamas, interpretējamas un vadāmās AI sistēmas [5].

Galvenie drošības pasākumi:
* Atbildīgā mērogošanas politika (RSP) Antropic izstrādāja RSP, lai pārvaldītu riskus, kas saistīti ar arvien spējīgākajiem AI modeļiem [2]. Šī politika ievieš sistēmu ar nosaukumu AI drošības līmeņi (ASL), gūstot iedvesmu no ASV valdības bioloģiskās drošības līmeņa (BSL) standartiem, ko izmanto bīstamu bioloģisko materiālu apstrādei [2] [7]. RSP ir oficiāli apstiprinājusi Anthropic valde, un visas izmaiņas politikā ir jāapstiprina arī valdei [2].
* AI drošības līmeņi (ASL) ASL ietvars ir paredzēts, lai nodrošinātu, ka drošības, drošības un darbības standarti ir piemēroti modeļa potenciālam katastrofiskam riskam [2] [7]. Augstāks ASL līmenis prasa stingrākas drošības demonstrācijas [2]. Politika līdzsvaro AI ekonomisko un sociālo vērtību ar nepieciešamību mazināt smagus riskus, īpaši katastrofiskus riskus, kas varētu rasties no apzinātas ļaunprātīgas vai neparedzētas destruktīvas izturēšanās paši modeļi [2].
* Drošības filtri Antropic izmanto drošības filtrus uzvedumiem, kas var bloķēt modeļa reakcijas, kad to noteikšanas modeļi karogās kā kaitīgs [5]. Viņiem ir arī uzlaboti drošības filtri, kas ļauj viņiem palielināt to noteikšanas modeļu jutīgumu [5]. Antropisks var uz laiku piemērot uzlabotus drošības filtrus lietotājiem, kuri atkārtoti pārkāpj savu politiku, un pēc dažiem pārkāpumiem vai dažiem pārkāpumiem noņem šo kontroli [5].
* Atklāšanas modeļi Antropiski izmanto noteikšanas modeļus, kas karogo potenciāli kaitīgu saturu, pamatojoties uz to lietošanas politiku [5].

Papildu aizsardzības pasākumi:
* Pamata aizsardzības pasākumi Tie ietver ID saglabāšanu, kas saistīti ar katru API zvanu, lai precīzi noteiktu konkrētu pārkāpumu saturu un ID piešķiršanu lietotājiem, lai izsekotu personām, kas pārkāpj antropisko AUP [1]. Viņi arī nodrošina, ka klienti izprot atļauto lietojumu un apsver iespēju pieprasīt klientiem reģistrēties kontā uz viņu platformas pirms Kloda izmantošanas [1].
* Starpposma aizsardzības pasākumi Antropic izveido pielāgošanas ietvarus, kas ierobežo galalietotāju mijiedarbību ar Klodu līdz ierobežotam uzvednes kopumam vai ļauj tikai Klodam pārskatīt īpašu zināšanu korpusu, samazinot lietotāju spēju iesaistīties vardarbīgā uzvedībā [1]. Tie arī nodrošina papildu drošības filtrus, kas ir bezmaksas reāllaika mērenības instrumenti, kurus uzbūvējis antropisks, lai palīdzētu atklāt potenciāli kaitīgas uzvednes un pārvaldīt reāllaika darbības, lai samazinātu kaitējumu [1].
* Papildu aizsardzības pasākumi, kas veic mērenības API pret visiem galalietotāju uzvednēm, pirms tie tiek nosūtīti uz Klodu, nodrošina, ka tie nav kaitīgi [1].
* Visaptveroši aizsardzības pasākumi Antropiski izveido cilvēku iekšējo pārskata sistēmu, lai atzīmētu uzvednes, kuras apzīmē Claude, vai mērenības API ir kā kaitīga, lai tās varētu iejaukties, lai ierobežotu vai noņemtu lietotājus ar augstu pārkāpumu līmeni [1].

Anthropic ir apņēmies arī ievērot savu AI sistēmu uzticamību un interpretējamību, ko panāk ar stingru izpēti un uzlabotu drošības metožu piemērošanu [2]. Ievērojams interpretējamības sasniegums ir antropisks mazs autoencoderis, kas paredzēts “monozemantiskas pazīmju ieguvei”, kas sarežģītus neironu tīklus vienkāršo saprotamos komponentos [2].

Atsauces:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-apparess-to-user-safety
[6.]
[7] https://www.anthropic.com/news/anthropics-reaģējams-skalojošs politika
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Atbilde no apjukuma: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output