Hogyan biztosítja az antropikus hibrid AI modell biztonságát és megbízhatóságát

A biológiai biztonsági szintek után modellezett AI biztonsági szinteket (ASL) használják a potenciális kockázatok alapján [2] [3].

Az antropikus biztonsági megközelítésének kulcsfontosságú elemei:
* A felelősségteljes méretezési politika (RSP) antropikus az AI biztonsági szintek (ASL) rendszerét alkalmazza [3]. Ha egy AI rendszer bemutat bizonyos veszélyes képességeket, akkor az antropikus elkötelezettség, hogy ne telepítse azt, vagy erősebb modelleket képezzen, amíg a specifikus biztosítékokat nem hajtják végre [3].
* Gyakori tesztelés az antropikus tesztek gyakran a veszélyes képességekhez rendszeres időközönként annak biztosítása érdekében, hogy a veszélyes képességek nem tudatlanul hozzanak létre [3].
* A veszélyes képességek észlelésére tervezett modellértékelések, ezek az értékelések konzervatív "figyelmeztető jelek "ként működnek, hogy megakadályozzák a kritikus biztonsági küszöbök véletlenül túllépését [2]. Az értékelések több nehézségi szakaszból állhatnak, ahol a későbbi szakaszokat csak akkor futtatják, ha a korábbi értékelések figyelmeztető jeleket mutatnak [2].
* Eljárási kötelezettségvállalások Az ASLS meghatározza, hogy mi igaznak kell lennie az antropikus modellekre és a biztonságra, hogy lehetővé tegye a biztonságos képzést és a telepítést [2].
* Monitorálás és naplózás: A belső használathoz a generált kimeneteket és a megfelelő bemeneteket naplózják és legalább 30 napig megőrzik. Ezeket a rönköket rendellenes aktivitás céljából ellenőrzik, és a riasztásokat komolyan veszik és azonnal reagálnak [2].
* A többszintű hozzáférés: Korlátozott esetekben a katasztrofális károk szempontjából releváns képességekkel rendelkező modellek elérhetőek lehetnek egy kiválasztott felhasználók egy kiválasztott csoportjának, amely nem választható el a veszélyes képességektől, feltéve, hogy a hozzáférés biztonságosan és segítségével biztosítható. elegendő felügyelet [2].
* A sebezhetőség és az események nyilvánosságra hozatala: Az antropikus részt vesz a sebezhetőség és az események nyilvánosságra hozatali folyamatában más laboratóriumokkal (a biztonsági vagy jogi korlátoktól függően), amely fedezi a vörösadatú eredményeket, a nemzetbiztonsági fenyegetéseket és az autonóm replikációs fenyegetéseket [2].
* Gyors reakció a modell sebezhetőségére: Ha tájékoztatják az újonnan felfedezett modell sebezhetőségét, amely lehetővé teszi a katasztrofális károkat, az antropikus elkötelezi magát, hogy haladéktalanul enyhítse vagy javítsa [2].
* Kétpártvezérlés: A Frontier AI modellek fejlesztésében, képzésében, tárolásában és telepítésében részt vevő összes rendszerben ez egy olyan rendszertervezést foglal magában, amelyben egyetlen személy sem rendelkezik tartós hozzáféréssel a termelés-kritikus környezetekhez; Ehelyett időkorlátozott hozzáférést kell kérniük egy üzleti indoklással rendelkező munkatársaktól [8].
* Felhasználói biztonsági funkciók Ezek magukban foglalják az észlelési modelleket a potenciálisan káros tartalom megjelölésére, az utasítások biztonsági szűrőinek és a továbbfejlesztett biztonsági szűrőknek azoknak a felhasználóknak, akik többször megsértik a házirendeket [7].

Az antropikus detektálási modelleket is használ a potenciálisan káros tartalom és a biztonsági szűrők jelölésére a felszólításokon [7]. Aktívan befektetnek és kísérleteznek a további biztonsági funkciókba, és eszközöket kínálnak a kár enyhítésére, és arra ösztönzik a felhasználókat, hogy adjanak visszajelzést ezekről az intézkedésekről [7].

Idézetek:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2e23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-a--safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charge-in-ai-safety and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

Válasz a zavarosságtól: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output