Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaip veikia slenkančios skalės funkcija „Anthropic“ modelyje


Kaip veikia slenkančios skalės funkcija „Anthropic“ modelyje


„Anthropic“ naudoja „atsakingą mastelio keitimo politiką“ (RSP), kad būtų galima valdyti riziką, susietą su vis labiau pajėgiais AI modeliais [5]. Ši politika naudoja sistemą, vadinamą AI saugos lygiais (ASL), semiantis įkvėpimu iš JAV vyriausybės biologinės saugos lygio standartų, kaip tvarkyti pavojingas biologines medžiagas [5]. ASL sistema yra skirta įgyvendinti saugos, saugumo ir veiklos standartus, atitinkančius modelio katastrofiškos rizikos potencialą, nes aukštesnis ASL lygis reikalauja griežtesnių saugumo demonstracijų [5].

Geriausi „Anthropic“ dabartiniai modeliai yra ASL-2 [4]. Bendrovė nustato ASL-2 ir ASL-3 izoliavimo ir diegimo priemones, ir ji įsipareigoja apibrėžti ASL-4 saugos priemones prieš mokant ASL-3 modelius [4]. ASL-1 reiškia sistemas, kurios neturi reikšmingos katastrofinės rizikos [5].

„Anthropic“ taip pat investuojamas į mechanistinį aiškinamumą, kuris apima AI sistemų, ypač giluminio mokymosi modelių, vidinį darbą ir supratimą, siekiant padaryti AI elgesį labiau nuspėjamą ir suprantamą [5].

Citatos:
[1] https://www.prompthub.us/blog/using-anthropic-best-praktices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-laude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemantity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.prompttitude.io/en/articles/8892919-UnStrecept-Anthropic-Models-A-Simple-guide
[7] https://www.anthropic.com/news/anthropics-onesponsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-refleflices-on-our-responsible-scaling-policy

Atsakymas iš pasipiktinimo: https://www.perplexity.ai/search/how-does-the-sliding-cale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output