Kako deluje drsna lestvica v modelu Anthropic

Antropic uporablja "odgovorno politiko skaliranja" (RSP) za obvladovanje tveganj, povezanih z vse bolj sposobnimi AI modeli [5]. Ta politika uporablja okvir, imenovan AI varnostna raven (ASL), ki črpa navdih iz standardov ravni biološke varnosti ameriške vlade za ravnanje z nevarnimi biološkimi materiali [5]. Okvir ASL je zasnovan za izvajanje varnosti, varnostnih in operativnih standardov, ki ustrezajo potencialu modela za katastrofalno tveganje, pri čemer višje ravni ASL zahtevajo strožje predstavitev varnosti [5].

Najboljši trenutni modeli Anthropic so na ASL-2 [4]. Podjetje določa ukrepe zadrževanja in uvajanja za ASL-2 in ASL-3 in se zavezuje k določanju varnostnih ukrepov ASL-4 pred usposabljanjem modelov ASL-3 [4]. ASL-1 se nanaša na sisteme, ki ne predstavljajo smiselnega katastrofalnega tveganja [5].

Antropic se vlaga tudi v mehanično interpretabilnost, ki vključuje seciranje in razumevanje notranjega delovanja sistemov AI, zlasti modelov globokega učenja, da bi postalo AI vedenje bolj predvidljivo in razumljivo [5].

Navedbe:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-in-Large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemantity
[4] https://ialabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/sl/articles/8892919- medsebojno razumevanje-anthropc-models-a-Simple-Guide
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-responsible-scaling-polic

Odgovor iz zapletenosti: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flSsmynqgibu47rvk8b7g?utm_source=copy_output