Cum funcționează scala glisantă în modelul antropic

Antropic folosește o „politică de scalare responsabilă” (RSP) pentru a gestiona riscurile legate de modelele AI din ce în ce mai capabile [5]. Această politică folosește un cadru numit Niveluri de siguranță AI (ASL), inspirând din standardele de nivel de biosecuritate ale guvernului SUA pentru gestionarea materialelor biologice periculoase [5]. Cadrul ASL este conceput pentru a implementa standardele de siguranță, securitate și operaționale potrivite potențialului unui model de risc catastrofal, cu un nivel mai ridicat de ASL necesitând demonstrații mai stricte de siguranță [5].

Cele mai bune modele actuale ale Anthropic sunt la ASL-2 [4]. Compania definește măsurile de reținere și implementare pentru ASL-2 și ASL-3 și se angajează să definească măsurile de siguranță ASL-4 înainte de formarea modelelor ASL-3 [4]. ASL-1 se referă la sisteme care nu prezintă un risc catastrofal semnificativ [5].

Antropic este, de asemenea, investit în interpretabilitate mecanicistă, care implică disecția și înțelegerea funcționării interne a sistemelor AI, în special a modelelor de învățare profundă, în efortul de a face comportamentul AI mai previzibil și mai inteligibil [5].

Citări:
[1] https://www.prompthub.us/blog/using-antropic-best-preractices-parameters-and-large-context-windows
]
[3] https://aizi.substack.com/p/comments-on-antropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/antropic/
[5] https://klu.ai/glossary/antropic-AI
[6] https://help.promptitude.io/en/articles/8892919-INENDERSTANDING-ANTROPIC-MODELS A-SIMPLE-GUIDE
[7] https://www.antropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/antropic-reflections-on-our-responsible-scaling-policy

Răspuns de la perplexitate: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output