Kā darbojas bīdāmās skalas funkcija Antropic modelī

Antropic izmanto "atbildīgu mērogošanas politiku" (RSP), lai pārvaldītu riskus, kas saistīti ar arvien spējīgākajiem AI modeļiem [5]. Šajā politikā tiek izmantots ietvars, ko sauc par AI drošības līmeni (ASL), gūstot iedvesmu no ASV valdības bioloģiskās drošības līmeņa standartiem bīstamu bioloģisko materiālu apstrādei [5]. ASL ietvars ir paredzēts, lai ieviestu drošības, drošības un darbības standartus, kas piemēroti modeļa katastrofiskā riska potenciālam, augstākam ASL līmenim ir nepieciešami stingrāki drošības demonstrācijas [5].

Anthropic labākie pašreizējie modeļi ir ASL-2 [4]. Uzņēmums definē ASL-2 un ASL-3 ierobežošanas un izvietošanas pasākumus, un tas apņemas noteikt ASL-4 drošības pasākumus pirms apmācības ASL-3 modeļiem [4]. ASL-1 attiecas uz sistēmām, kurām nav jēgpilna katastrofāla riska [5].

Antropisks tiek ieguldīts arī mehānistiskajā interpretācijā, kas ietver AI sistēmu, īpaši dziļo mācību modeļu iekšējās darbības sadalīšanu un izpratni, cenšoties padarīt AI izturēšanos paredzamāku un saprotamāku [5].

Atsauces:
[1.]
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6.]
[7] https://www.anthropic.com/news/anthropics-reaģējams-skalojošs politika
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-reakcijas-skalējošā politika

Atbilde no apjukuma: https://www.perplexity.ai/search/how-does-the-sciding-scale-fea-4flsssmynqgibu47rvk8b7g?utm_source=copy_outputput