Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kā darbojas bīdāmās skalas funkcija Antropic modelī


Kā darbojas bīdāmās skalas funkcija Antropic modelī


Antropic izmanto "atbildīgu mērogošanas politiku" (RSP), lai pārvaldītu riskus, kas saistīti ar arvien spējīgākajiem AI modeļiem [5]. Šajā politikā tiek izmantots ietvars, ko sauc par AI drošības līmeni (ASL), gūstot iedvesmu no ASV valdības bioloģiskās drošības līmeņa standartiem bīstamu bioloģisko materiālu apstrādei [5]. ASL ietvars ir paredzēts, lai ieviestu drošības, drošības un darbības standartus, kas piemēroti modeļa katastrofiskā riska potenciālam, augstākam ASL līmenim ir nepieciešami stingrāki drošības demonstrācijas [5].

Anthropic labākie pašreizējie modeļi ir ASL-2 [4]. Uzņēmums definē ASL-2 un ASL-3 ierobežošanas un izvietošanas pasākumus, un tas apņemas noteikt ASL-4 drošības pasākumus pirms apmācības ASL-3 modeļiem [4]. ASL-1 attiecas uz sistēmām, kurām nav jēgpilna katastrofāla riska [5].

Antropisks tiek ieguldīts arī mehānistiskajā interpretācijā, kas ietver AI sistēmu, īpaši dziļo mācību modeļu iekšējās darbības sadalīšanu un izpratni, cenšoties padarīt AI izturēšanos paredzamāku un saprotamāku [5].

Atsauces:
[1.]
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6.]
[7] https://www.anthropic.com/news/anthropics-reaģējams-skalojošs politika
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-reakcijas-skalējošā politika

Atbilde no apjukuma: https://www.perplexity.ai/search/how-does-the-sciding-scale-fea-4flsssmynqgibu47rvk8b7g?utm_source=copy_outputput