Kuidas tagab antropiline selle AI mudelite ohutuse

Kasutajaohutus on Anthropici missiooni keskmes usaldusväärsete, tõlgendatavate ja juhitavate AI -süsteemide loomiseks [5].

Peamised ohutusmeetmed:
* Vastutustundliku skaleerimispoliitika (RSP) Anthropic töötas RSP välja, et juhtida üha võimekamate AI -mudelitega seotud riske [2]. Poliitika tutvustab raamistikku nimega AI ohutustase (ASL), tuginedes inspiratsiooni USA valitsuse bioohutuse taseme (BSL) standarditest, mida kasutatakse ohtlike bioloogiliste materjalide käitlemiseks [2] [7]. RSP on ametlikult heaks kiitnud Anthropici juhatus ja kõik muudatused poliitikas peab heaks kiitma ka juhatus [2].
* AI ohutustase (ASL) ASL -i raamistik on loodud tagamaks, et ohutus, turvalisus ja tööstandardid oleksid sobivad mudeli katastroofilise riski potentsiaalile [2] [7]. Kõrgemad ASL -i tasemed nõuavad rangemaid ohutuse demonstratsioone [2]. Poliitika tasakaalustab AI majanduslikku ja sotsiaalset väärtust vajadusega leevendada tõsiseid riske, eriti katastroofilisi riske, mis võivad tuleneda tahtlikust kuritarvitamisest või soovimatust hävitavast käitumisest mudelite endi poolt [2].
* Turvafiltrid Antropic kasutab ohutusfiltreid juhistel, mis võivad blokeerida mudeli vastused, kui nende tuvastusmudelid märgistavad sisu kahjulikuna [5]. Neil on ka täiustatud ohutusfiltrid, mis võimaldavad neil suurendada avastamismudelite tundlikkust [5]. Antropiline võib ajutiselt rakendada täiustatud ohutusfiltreid kasutajatele, kes rikuvad korduvalt nende poliitikat, ja eemaldada need juhtseadised pärast rikkumist või väheseid rikkumisi [5].
* Avastusmudelid kasutavad antropilisi mudeleid, mis märgivad potentsiaalselt kahjulikku sisu nende kasutuspoliitika põhjal [5].

täiendavad kaitsemeetmed:
* Põhiliste kaitsemeetmete hulka kuuluvad iga API -kõnega seotud ID -de salvestamine, et täpsustada konkreetset rikkuvat sisu ja määrata kasutajatele ID -de määramist, et jälgida infotehnoloogiat rikkuvaid isikuid [1]. Samuti tagavad nad, et kliendid mõistavad lubatud kasutusviisi ja kaaluvad, et kliendid enne Claude'i kasutamist oma platvormil oleksid kontod registreeruksid [1].
* Vahekaitsemeetmed antropilised loovad kohandamisraamistike, mis piiravad lõppkasutaja interaktsioone Claude'iga piiratud hulga viipade komplektiga või võimaldavad Claude'il ainult konkreetset teadmiste korpust üle vaadata, vähendades kasutajate võimet osaleda vägistava käitumisega [1]. Need võimaldavad ka täiendavaid ohutusfiltreid, mis on Anthropici ehitatud tasuta reaalajas modereerimise tööriistad, et aidata tuvastada potentsiaalselt kahjulikke juhiseid ja juhtida reaalajas toiminguid kahju vähendamiseks [1].
* Täpsemad kaitsemeetmed, mis käitavad mõõdukat API-d kõigi lõppkasutajate viigite vastu, enne kui nad Claude'i saadetakse, tagavad, et need pole kahjulikud [1].
* Põhjalikud kaitsemeetmed Antropic seab sisemise inimese ülevaatesüsteemi, et märgistada Claude'i või mõõduka API -ga märgistatud viipasid, nii et nad saaksid sekkuda, et piirata või eemaldada kasutajad kõrge rikkumise määraga [1].

Antropiline on pühendunud ka oma AI -süsteemide usaldusväärsusele ja tõlgendamisele, mis on saavutatud rangete uuringute ja täiustatud ohutusmeetodite rakendamisel [2]. Märkimisväärne läbimurre tõlgendatavuse osas on Antropici hõredate autokodentide kasutamine monosamantilise funktsiooni ekstraheerimiseks, mis lihtsustab keerulisi närvivõrke arusaadavateks komponentideks [2].

Tsitaadid:
]
[2] https://klu.ai/glossary/anthropic-ai
]
]
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
]
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
]
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Vastus hämmeldusest: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output