Az antropikus biztosítja AI modelljeinek biztonságát különféle technikák és politikák révén, ideértve a felelősségteljes skálázási politikát (RSP), az AI biztonsági szinteket (ASL), a biztonsági szűrőket és a detektálási modelleket [2] [5]. A felhasználói biztonság központi szerepet játszik az antropikus küldetésében, hogy megbízható, értelmezhető és irányítható AI rendszereket hozzon létre [5].
Főbb biztonsági intézkedések:
* A felelősségteljes méretezési politika (RSP) antropikus kifejlesztette az RSP -t az egyre képes AI modellekhez kapcsolódó kockázatok kezelésére [2]. A politika bevezeti az AI Safety szint (ASL) nevű keretet, amely inspirálja az Egyesült Államok kormányának biológiai biztonsági szintjének (BSL) szabványait, amelyeket a veszélyes biológiai anyagok kezelésére használnak [2] [7]. Az RSP -t az Antropikus Igazgatóság hivatalosan jóváhagyta, és a politika bármilyen változtatását az igazgatótanácsnak is jóvá kell hagynia [2].
* AI Biztonsági szintek (ASL) Az ASL -keretrendszer célja annak biztosítása, hogy a biztonság, a biztonság és az operatív szabványok megfeleljenek a modell katasztrofális kockázati lehetőségeinek [2] [7]. A magasabb ASL -szintek szigorúbb biztonság demonstrációkat igényelnek [2]. A politika kiegyensúlyozza az AI gazdasági és társadalmi értékét azzal a szükségességgel, hogy enyhítse a súlyos kockázatot, különös tekintettel a katasztrofális kockázatokra, amelyek maguk a modellek szándékos visszaéléséből vagy nem szándékos pusztító magatartásból származhatnak [2].
* Biztonsági szűrők Az antropikus biztonsági szűrőket használ az utasításoknál, amelyek blokkolhatják a modellt, amikor az észlelési modellek károsként jelzik a tartalmat [5]. Fokozott biztonsági szűrőkkel is rendelkeznek, amelyek lehetővé teszik számukra, hogy növeljék a detektálási modellek érzékenységét [5]. Az antropikus ideiglenesen alkalmazhatja a továbbfejlesztett biztonsági szűrőket azokra a felhasználókra, akik többször megsértik politikájukat, és ezeket az ellenőrzéseket nem vagy kevés jogsértés után távolítják el [5].
* A detektálási modellek az antropikus detektálási modelleket használnak, amelyek felhasználási politikájuk alapján potenciálisan káros tartalmat jelölnek meg [5].
További biztosítékok:
* Alapvető biztosítékok Ezek magukban foglalják az egyes API -hívásokhoz kapcsolódó azonosítók tárolását, hogy meghatározzák a konkrét erőszakos tartalmakat, és az azonosító személyekhez igazítsák a felhasználókat az Antropic S AUP -t megsértő egyének nyomon követésére [1]. Biztosítják azt is, hogy az ügyfelek megértsék az engedélyezett felhasználásokat, és fontolják meg, hogy az ügyfelek feliratkozzanak egy fiókra a platformon, mielőtt Claude-t használnának [1].
* A köztes biztosítékok Az antropikus testreszabási kereteket hoz létre, amelyek korlátozzák a végfelhasználói interakciókat a Claude-val korlátozott kérésekhez, vagy csak Claude-nak engedik, hogy áttekintse egy adott tudás-korpuszt, csökkentve a felhasználók azon képességét, hogy erőszakos viselkedésben vegyenek részt [1]. Emellett további biztonsági szűrőket tesznek lehetővé, amelyek az antropikus által épített ingyenes valós idejű moderálási szerszámok, amelyek segítenek a potenciálisan káros utasítások észlelésében és a valós idejű műveletek kezelésében a kár csökkentése érdekében [1].
* Fejlett biztosítékok, amelyek moderáló API-t futtatnak az összes végfelhasználói utasítás ellen, mielőtt Claude-ba küldték őket, biztosítja, hogy nem káros [1].
* Átfogó biztosítékok Az antropikusok egy belső emberi áttekintő rendszert állítanak be, hogy a Claude vagy a moderációs API által megjelölt utasításokat károsként jelöljék meg, így beavatkozhatnak a magas jogsértési arány korlátozására vagy eltávolítására [1].
Az antropikus az AI rendszerek megbízhatósága és értelmezhetősége mellett is elkötelezett, amelyet szigorú kutatás és a fejlett biztonsági technikák alkalmazása révén érnek el [2]. Az értelmezhetőség jelentős áttörése az antropikus ritka autoencoderek használata a „monoszemantikus tulajdonságok extrahálására”, amely egyszerűsíti a komplex ideghálózatokat érthető komponensekké [2].
Idézetek:
[1] https://support.anthropic.com/en/articles/919617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-Approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-rescal-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety