Kaip veikia slenkančios skalės funkcija „Anthropic“ modelyje

„Anthropic“ naudoja „atsakingą mastelio keitimo politiką“ (RSP), kad būtų galima valdyti riziką, susietą su vis labiau pajėgiais AI modeliais [5]. Ši politika naudoja sistemą, vadinamą AI saugos lygiais (ASL), semiantis įkvėpimu iš JAV vyriausybės biologinės saugos lygio standartų, kaip tvarkyti pavojingas biologines medžiagas [5]. ASL sistema yra skirta įgyvendinti saugos, saugumo ir veiklos standartus, atitinkančius modelio katastrofiškos rizikos potencialą, nes aukštesnis ASL lygis reikalauja griežtesnių saugumo demonstracijų [5].

Geriausi „Anthropic“ dabartiniai modeliai yra ASL-2 [4]. Bendrovė nustato ASL-2 ir ASL-3 izoliavimo ir diegimo priemones, ir ji įsipareigoja apibrėžti ASL-4 saugos priemones prieš mokant ASL-3 modelius [4]. ASL-1 reiškia sistemas, kurios neturi reikšmingos katastrofinės rizikos [5].

„Anthropic“ taip pat investuojamas į mechanistinį aiškinamumą, kuris apima AI sistemų, ypač giluminio mokymosi modelių, vidinį darbą ir supratimą, siekiant padaryti AI elgesį labiau nuspėjamą ir suprantamą [5].

Citatos:
[1] https://www.prompthub.us/blog/using-anthropic-best-praktices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-laude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemantity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.prompttitude.io/en/articles/8892919-UnStrecept-Anthropic-Models-A-Simple-guide
[7] https://www.anthropic.com/news/anthropics-onesponsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-refleflices-on-our-responsible-scaling-policy

Atsakymas iš pasipiktinimo: https://www.perplexity.ai/search/how-does-the-sliding-cale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output