Cum asigură antropic siguranța modelelor sale AI

Antropic asigură siguranța modelelor sale AI printr -o varietate de tehnici și politici, inclusiv politica de scalare responsabilă (RSP), nivelurile de siguranță AI (ASL), filtrele de siguranță și modelele de detectare [2] [5]. Siguranța utilizatorului este centrală pentru misiunea Antropică de a crea sisteme AI fiabile, interpretabile și atenuate [5].

Măsuri cheie de siguranță:
* Politica de scalare responsabilă (RSP) Antropică a dezvoltat RSP pentru a gestiona riscurile legate de modelele AI din ce în ce mai capabile [2]. Politica introduce un cadru numit Niveluri de siguranță AI (ASL), care se inspiră din standardele de biosecuritate ale guvernului SUA (BSL) care sunt utilizate pentru gestionarea materialelor biologice periculoase [2] [7]. RSP a fost aprobat în mod oficial de către Consiliul Antropic și orice modificare a politicii trebuie să fie aprobată și de consiliu [2].
* Niveluri de siguranță AI (ASL) Cadrul ASL este conceput pentru a se asigura că standardele de siguranță, securitate și operaționale sunt adecvate potențialului unui model de risc catastrofal [2] [7]. Niveluri mai mari de ASL necesită demonstrații mai stricte de siguranță [2]. Politica echilibrează valoarea economică și socială a AI cu nevoia de a atenua riscurile severe, în special riscurile catastrofale care ar putea apărea din utilizarea greșită deliberată sau din comportamente distructive neintenționate de către modelele în sine [2].
* Filtrele de siguranță Antropice folosește filtre de siguranță pe prompturi, care pot bloca răspunsurile din model atunci când modelele lor de detectare au conținut de semnalizare ca fiind dăunătoare [5]. De asemenea, au filtre de siguranță îmbunătățite, care le permit să crească sensibilitatea modelelor de detectare [5]. Antropic poate aplica temporar filtre de siguranță îmbunătățite utilizatorilor care își încalcă în mod repetat politicile și elimină aceste controale după o perioadă de nicio sau puține încălcări [5].
* Modele de detectare Antropice utilizează modele de detectare care semnalizează un conținut potențial dăunător pe baza politicii lor de utilizare [5].

Produsele suplimentare:
* Produsele de bază acestea includ stocarea ID -urilor legate cu fiecare apel API pentru a identifica conținutul încălcat specific și alocarea ID -urilor utilizatorilor pentru a urmări persoanele care încalcă AUP -ul antropic [1]. De asemenea, se asigură că clienții înțeleg utilizările permise și iau în considerare solicitarea clienților să se înscrie pentru un cont pe platforma lor înainte de a utiliza Claude [1].
* Safegările intermediare Antropice creează cadre de personalizare care restricționează interacțiunile utilizatorului final cu Claude la un set limitat de prompturi sau permit doar lui Claude să revizuiască un corpus specific de cunoștințe, scăzând capacitatea utilizatorilor de a se angaja în comportament violant [1]. De asemenea, permit filtre suplimentare de siguranță, care sunt unelte de moderație în timp real gratuit, construite de Antropic pentru a ajuta la detectarea prompturilor potențial dăunătoare și gestionarea acțiunilor în timp real pentru a reduce daunele [1].
* Produsele avansate care rulează o API de moderație împotriva tuturor solicitărilor utilizatorilor finali înainte de a fi trimise către Claude, asigură că nu sunt dăunătoare [1].
* Proiecte cuprinzătoare Anthropic stabilește un sistem intern de revizuire umană pentru a indica solicitările care sunt marcate de Claude sau de o API de moderație ca fiind dăunătoare, astfel încât acestea să poată interveni pentru a restricționa sau elimina utilizatorii cu rate mari de încălcare [1].

Antropic este, de asemenea, angajat în fiabilitatea și interpretabilitatea sistemelor sale AI, obținute prin cercetări riguroase și aplicarea tehnicilor avansate de siguranță [2]. O descoperire semnificativă în interpretabilitate este utilizarea de către Antropic a autocodificatoarelor rare pentru „extracția monosemantică a caracteristicilor”, care simplifică rețelele neuronale complexe în componente inteligibile [2].

Citări:
[1] https://support.antropic.com/en/articles/9199617-APi-încredere-sefety-tools
[2] https://klu.ai/glossary/antropic-AI
[3] https://myscale.com/blog/transformative-influence-antropic-AI-safety-measures/
[4] https://www.antropic.com/news/frontier-model-security
[5] https://support.antropic.com/en/articles/8106465-our-approach-to-user-sefety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/antropic-s-core-views-on-aai-securitate
[7] https://www.antropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-antropics-AI-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.antropic.com/news/core-views-on-ai-safety

Răspuns de la perplexitate: https://www.perplexity.ai/search/how-does-antropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output