Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuidas tagab antropiline selle AI mudelite ohutuse


Kuidas tagab antropiline selle AI mudelite ohutuse


Kasutajaohutus on Anthropici missiooni keskmes usaldusväärsete, tõlgendatavate ja juhitavate AI -süsteemide loomiseks [5].

Peamised ohutusmeetmed:
* Vastutustundliku skaleerimispoliitika (RSP) Anthropic töötas RSP välja, et juhtida üha võimekamate AI -mudelitega seotud riske [2]. Poliitika tutvustab raamistikku nimega AI ohutustase (ASL), tuginedes inspiratsiooni USA valitsuse bioohutuse taseme (BSL) standarditest, mida kasutatakse ohtlike bioloogiliste materjalide käitlemiseks [2] [7]. RSP on ametlikult heaks kiitnud Anthropici juhatus ja kõik muudatused poliitikas peab heaks kiitma ka juhatus [2].
* AI ohutustase (ASL) ASL -i raamistik on loodud tagamaks, et ohutus, turvalisus ja tööstandardid oleksid sobivad mudeli katastroofilise riski potentsiaalile [2] [7]. Kõrgemad ASL -i tasemed nõuavad rangemaid ohutuse demonstratsioone [2]. Poliitika tasakaalustab AI majanduslikku ja sotsiaalset väärtust vajadusega leevendada tõsiseid riske, eriti katastroofilisi riske, mis võivad tuleneda tahtlikust kuritarvitamisest või soovimatust hävitavast käitumisest mudelite endi poolt [2].
* Turvafiltrid Antropic kasutab ohutusfiltreid juhistel, mis võivad blokeerida mudeli vastused, kui nende tuvastusmudelid märgistavad sisu kahjulikuna [5]. Neil on ka täiustatud ohutusfiltrid, mis võimaldavad neil suurendada avastamismudelite tundlikkust [5]. Antropiline võib ajutiselt rakendada täiustatud ohutusfiltreid kasutajatele, kes rikuvad korduvalt nende poliitikat, ja eemaldada need juhtseadised pärast rikkumist või väheseid rikkumisi [5].
* Avastusmudelid kasutavad antropilisi mudeleid, mis märgivad potentsiaalselt kahjulikku sisu nende kasutuspoliitika põhjal [5].

täiendavad kaitsemeetmed:
* Põhiliste kaitsemeetmete hulka kuuluvad iga API -kõnega seotud ID -de salvestamine, et täpsustada konkreetset rikkuvat sisu ja määrata kasutajatele ID -de määramist, et jälgida infotehnoloogiat rikkuvaid isikuid [1]. Samuti tagavad nad, et kliendid mõistavad lubatud kasutusviisi ja kaaluvad, et kliendid enne Claude'i kasutamist oma platvormil oleksid kontod registreeruksid [1].
* Vahekaitsemeetmed antropilised loovad kohandamisraamistike, mis piiravad lõppkasutaja interaktsioone Claude'iga piiratud hulga viipade komplektiga või võimaldavad Claude'il ainult konkreetset teadmiste korpust üle vaadata, vähendades kasutajate võimet osaleda vägistava käitumisega [1]. Need võimaldavad ka täiendavaid ohutusfiltreid, mis on Anthropici ehitatud tasuta reaalajas modereerimise tööriistad, et aidata tuvastada potentsiaalselt kahjulikke juhiseid ja juhtida reaalajas toiminguid kahju vähendamiseks [1].
* Täpsemad kaitsemeetmed, mis käitavad mõõdukat API-d kõigi lõppkasutajate viigite vastu, enne kui nad Claude'i saadetakse, tagavad, et need pole kahjulikud [1].
* Põhjalikud kaitsemeetmed Antropic seab sisemise inimese ülevaatesüsteemi, et märgistada Claude'i või mõõduka API -ga märgistatud viipasid, nii et nad saaksid sekkuda, et piirata või eemaldada kasutajad kõrge rikkumise määraga [1].

Antropiline on pühendunud ka oma AI -süsteemide usaldusväärsusele ja tõlgendamisele, mis on saavutatud rangete uuringute ja täiustatud ohutusmeetodite rakendamisel [2]. Märkimisväärne läbimurre tõlgendatavuse osas on Antropici hõredate autokodentide kasutamine monosamantilise funktsiooni ekstraheerimiseks, mis lihtsustab keerulisi närvivõrke arusaadavateks komponentideks [2].

Tsitaadid:
]
[2] https://klu.ai/glossary/anthropic-ai
]
]
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
]
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
]
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Vastus hämmeldusest: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output