Antropinen varmistaa AI -turvallisuuden ja luotettavuuden useiden toimenpiteiden avulla, mukaan lukien stressitestaus, turvallisuusprotokollat ja vastuullinen skaalauspolitiikka [1]. He hyödyntävät AI -turvallisuustasoja (ASL), joka on mallinnettu bioturvallisuustasojen jälkeen, mahdollisten riskeihin perustuvien turvallisuustoimenpiteiden määrittämiseksi [2] [3].
Antropisin turvallisuuslähestymistavan avainkomponentit:
* Vastuullinen skaalauspolitiikka (RSP) Antropinen käyttää AI -turvallisuustasoja (ASL) [3]. Jos AI -järjestelmä osoittaa tiettyjä vaarallisia ominaisuuksia, antropinen sitoutuu olemaan ottamatta käyttöön sitä tai kouluttamaan tehokkaampia malleja, ennen kuin erityiset suojatoimenpiteet on toteutettu [3].
* Antropisten testien usein testit usein vaarallisten ominaisuuksien varalta säännöllisin väliajoin varmistaakseen, että vaarallisia ominaisuuksia ei luoda tietämättä [3].
* Malli -arvioinnit, jotka on suunniteltu vaarallisten kykyjen havaitsemiseksi, nämä arvioinnit toimivat konservatiivisina "varoitusmerkeinä" estääkseen vahingossa kriittisten turvallisuuskynnysten ylittämisen [2]. Arvioinnit voivat koostua useista vaikeusvaiheista, joissa myöhemmät vaiheet suoritetaan vain, jos aikaisemmat arviot osoittavat varoitusmerkkejä [2].
* Menettelylliset sitoumukset ASL: t määrittelevät, minkä on oltava totta antropisen malleista ja turvallisuudesta turvallisen koulutuksen ja käyttöönoton sallimiseksi [2].
* Valvonta ja kirjaaminen: Sisäisen käytön kannalta luodut lähdöt ja vastaavat tulot kirjataan ja säilytetään vähintään 30 päivän ajan. Näitä lokkeja tarkkaillaan epänormaalin toiminnan suhteen, ja hälytykset otetaan vakavasti ja reagoivat nopeasti [2].
* Portoitettu pääsy: Rajoitetuissa tapauksissa malleja, joilla on katastrofaaliseen haitoihin liittyviä ominaisuuksia riittävä valvonta [2].
* Haavoittuvuus ja tapahtumien paljastaminen: Antropinen harjoittaa haavoittuvuutta ja tapahtumien julkistamisprosessia muiden laboratorioiden kanssa (turvallisuuden tai oikeudellisten rajoitusten mukaisesti), jotka kattavat punaisen joukkueen tulokset, kansallisen turvallisuuden uhat ja itsenäiset replikaatiouhat [2].
* Nopea vastaus mallin haavoittuvuuksiin: Kun se on tietoinen äskettäin löydetystä mallin haavoittuvuudesta, joka mahdollistaa katastrofaalisen vahingon, antropinen sitoutuu vähentämään tai korjaamaan sitä nopeasti [2].
* Kahden osapuolen hallinta: Sovelletaan kaikkiin järjestelmiin, jotka liittyvät Frontier AI -mallien kehittämiseen, koulutukseen, isännöintiin ja käyttöönottoon, tähän sisältyy järjestelmän suunnittelu, jossa yhdelläkään henkilöllä ei ole jatkuvaa pääsyä tuotantokriittisiin ympäristöihin; Sen sijaan heidän on pyydettävä työtoverilta aikaa rajoitettua pääsyä yrityksen perustelulla [8].
* Käyttäjäturvallisuusominaisuudet Näitä ovat havaitsemismallit mahdollisesti haitallisen sisällön liputtamiseksi, kehotusten turvallisuussuodattimet ja parannettu turvasuodattimet käyttäjille, jotka toistuvat politiikkoja [7].
Antropia käyttää myös havaitsemismalleja potentiaalisesti haitallisen sisällön ja turvallisuussuodattimien liputtamiseksi kehotuksissa [7]. He investoivat aktiivisesti lisäturvallisuusominaisuuksiin ja kokeilemaan lisävarusteita ja tarjoavat työkaluja vahingon lieventämiseksi, ja ne rohkaisevat käyttäjiä antamaan palautetta näistä toimenpiteistä [7].
Viittaukset:
.
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdffff
[3] https://www.anthropic.com/news/uk-ai-safety-summit
.
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-Safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-Safety
[8] https://www.anthropic.com/news/frontier-model-security