Antropic asigură siguranța și fiabilitatea AI prin mai multe măsuri, inclusiv testarea stresului, protocoalele de siguranță și o politică de scalare responsabilă [1]. Ei utilizează niveluri de siguranță AI (ASL), modelate după niveluri de biosecuritate, pentru a determina măsurile de siguranță pe baza riscurilor potențiale [2] [3].
Componente cheie ale abordării de siguranță a antropicului:
* Politica de scalare responsabilă (RSP) antropică folosește un sistem de niveluri de siguranță AI (ASL) [3]. Dacă un sistem AI demonstrează anumite capacități periculoase, antropic se angajează să nu -l implementeze sau să instruiască modele mai puternice până la implementarea garanțiilor specifice [3].
* Teste frecvente teste antropice frecvent pentru capacități periculoase la intervale regulate pentru a se asigura că capacitățile periculoase nu sunt create fără să știe [3].
* Evaluările modelului concepute pentru a detecta capacități periculoase, aceste evaluări acționează ca „semne de avertizare” conservatoare pentru a preveni depășirea accidentală a pragurilor critice de siguranță [2]. Evaluările pot consta în mai multe etape de dificultate, în care etapele ulterioare sunt rulate numai dacă evaluările anterioare arată semne de avertizare [2].
* Angajamentele procedurale ASLS specifică ceea ce trebuie să fie valabil pentru modelele și securitatea Antropic pentru a permite instruirea și desfășurarea în siguranță [2].
* Monitorizare și înregistrare: Pentru utilizare internă, ieșirile generate și intrările corespunzătoare sunt înregistrate și păstrate cel puțin 30 de zile. Aceste jurnale sunt monitorizate pentru activitate anormală, iar alarmele sunt luate în serios și au răspuns la prompt [2].
* Acces la nivel: În cazuri limitate, modelele cu capacități relevante pentru daunele catastrofale pot fi disponibile unui grup select de utilizatori verificati cu o caz de utilizare legitimă și benefică, care nu poate fi separată de capacitățile periculoase, cu condiția ca accesul să fie acordat în siguranță și cu Supraveghere suficientă [2].
* Vulnerabilitate și dezvăluire a incidentelor: antropică se angajează într-un proces de vulnerabilitate și dezvăluire a incidentelor cu alte laboratoare (sub rezerva constrângerilor de securitate sau legale) care acoperă rezultatele echipelor roșii, amenințările cu securitatea națională și amenințările de replicare autonomă [2].
* Răspuns rapid la vulnerabilitățile modelului: atunci când este informat despre o vulnerabilitate model recent descoperită care permite daunele catastrofale, se angajează antropică să -l atenueze sau să -l corecteze prompt [2].
* Control în două partide: aplicat tuturor sistemelor implicate în dezvoltarea, instruirea, găzduirea și implementarea modelelor AI de frontieră, aceasta implică un design de sistem în care nicio persoană nu are acces persistent la medii critice pentru producție; În schimb, ei trebuie să solicite acces limitat în timp de la un coleg de serviciu cu o justificare a afacerii [8].
* Caracteristici de siguranță ale utilizatorului Acestea includ modele de detectare pentru a semnala conținut potențial dăunător, filtre de siguranță pe prompturi și filtre de siguranță îmbunătățite pentru utilizatorii care încalcă în mod repetat politicile [7].
Antropic folosește, de asemenea, modele de detectare pentru a semnala conținutul potențial dăunător și filtrele de siguranță pe prompturi [7]. Investesc în mod activ în și experimentează caracteristici suplimentare de siguranță și oferă instrumente pentru atenuarea vătămărilor și încurajează utilizatorii să ofere feedback cu privire la aceste măsuri [7].
Citări:
[1] https://myscale.com/blog/transformative-influence-antropic-AI-safety-measures/
[2] https://www-cdn.antropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.antropic.com/news/uk-AI-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charch-in-ai-safety-and-performance/
[5] https://www.antropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-antropics-AI-safety
[7] https://support.antropic.com/en/articles/8106465-our-approach-to-user-sefety
[8] https://www.antropic.com/news/frontier-model-security