W jaki sposób antropic zapewnia bezpieczeństwo i niezawodność hybrydowego modelu AI

Anthropic zapewnia bezpieczeństwo i niezawodność sztucznej inteligencji poprzez kilka środków, w tym testowanie warunków skrajnych, protokoły bezpieczeństwa i politykę odpowiedzialnej skalowania [1]. Wykorzystują poziomy bezpieczeństwa AI (ASL), modelowane po poziomach biozafu, aby określić pomiary bezpieczeństwa na podstawie potencjalnych zagrożeń [2] [3].

Kluczowe elementy podejścia bezpieczeństwa antropika:
* Antropic odpowiedzialny zasady skalowania (RSP) wykorzystuje system poziomów bezpieczeństwa AI (ASL) [3]. Jeśli system AI wykazuje pewne niebezpieczne możliwości, antropijne zobowiązuje się nie wdrażać go lub szkolić mocniejsze modele, dopóki nie zostaną wdrożone określone zabezpieczenia [3].
* Często testowanie testów antropicznych często pod kątem niebezpiecznych możliwości w regularnych odstępach czasu, aby zapewnić, że niebezpieczne możliwości nie zostaną utworzone nieświadomie [3].
* Oceny modelu zaprojektowane w celu wykrycia niebezpiecznych możliwości, oceny te działają jako konserwatywne „znaki ostrzegawcze”, aby zapobiec przypadkowym przekroczeniu krytycznych progów bezpieczeństwa [2]. Oceny mogą polegać na wielu etapach trudności, w których późniejsze etapy są uruchamiane tylko wtedy, gdy wcześniejsze oceny wykazują znaki ostrzegawcze [2].
* Zobowiązania proceduralne ASLS określają, co musi być prawdziwe w przypadku modeli i bezpieczeństwa antropiku, aby umożliwić bezpieczne szkolenie i wdrożenie [2].
* Monitorowanie i rejestrowanie: W przypadku użytkowania wewnętrznego wygenerowane wyjścia i odpowiednie wejścia są rejestrowane i zachowane przez co najmniej 30 dni. Te dzienniki są monitorowane pod kątem nieprawidłowej aktywności, a alarmy są traktowane poważnie i reagowane szybko [2].
* Dostęp do warstwy: w ograniczonych przypadkach modele o możliwościach istotnych dla katastrofalnej szkody mogą być dostępne dla wybranej grupy sprawdzonych użytkowników z uzasadnionym i korzystnym miejscem do użytku, którego nie można oddzielić od możliwości niebezpiecznych, pod warunkiem, że dostęp może być przyznawany bezpiecznie i z pomocą wystarczający nadzór [2].
* Podatność i ujawnienie incydentów: antropiki angażuje się w proces podatności i ujawniania incydentów z innymi laboratoriami (z zastrzeżeniem bezpieczeństwa lub ograniczeń prawnych), które obejmują wyniki czerwonych zespołów, zagrożenia bezpieczeństwa narodowego i niezależne zagrożenia replikacji [2].
* Szybka reakcja na luki w modelu: po informowaniu o nowo odkrytej modelu podatności na podatność umożliwiającą katastrofalną szkodę, antropijne zobowiązuje się do łagodzenia lub łatania jej niezwłocznie [2].
* Kontrola dwupartyjna: zastosowana do wszystkich systemów zaangażowanych w rozwój, szkolenie, hosting i wdrażanie modeli AI Frontier, obejmuje to projekt systemu, w którym żadna osoba nie ma trwałego dostępu do środowisk krytycznych; Zamiast tego muszą poprosić o ograniczony czas od współpracownika z uzasadnieniem biznesowym [8].
* Funkcje bezpieczeństwa użytkowników obejmują one modele wykrywania do oznaczenia potencjalnie szkodliwych treści, filtry bezpieczeństwa na podpowiedzi oraz ulepszone filtry bezpieczeństwa dla użytkowników, którzy wielokrotnie naruszają zasady [7].

Anthropic wykorzystuje również modele wykrywalne do oznaczania potencjalnie szkodliwych treści i filtrów bezpieczeństwa na podpowiedzi [7]. Aktywnie inwestują i eksperymentują z dodatkowymi funkcjami bezpieczeństwa i zapewniają narzędzia do łagodzenia szkód, i zachęca użytkowników do przekazywania informacji zwrotnych na temat tych środków [7].

Cytaty:
[1] https://myscale.com/blog/transformative-influence-antropic-ai-safety-measures/
[2] https://www-cdn.antropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-caling-policy.pdf
[3] https://www.antropic.com/news/uk-ai-safety-summit
[4] https://accleationeconomia.com/ai/antropic-leads-the-marand-in-ai-safety-and-performance/
[5] https://www.antropic.com/news/core-views-on-ai-safety
[6] https://engineinerideas.substack.com/p/comments-on-antropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.antropic.com/news/frontier-model-security

Odpowiedź z zakłopotania: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgSza?utm_source=copy_output_output_output_output