Kuinka liukuva asteikko ominaisuus antropian mallityössä

Antropia käyttää "vastuullista skaalauskäytäntöä" (RSP) yhä kykenevämpiin AI -malleihin linkitettyjen riskien hallintaan [5]. Tässä politiikassa käytetään kehystä, jota kutsutaan AI -turvallisuustasoille (ASL), mikä herättää inspiraatiota Yhdysvaltain hallituksen bioturvallisuustason standardeista vaarallisten biologisten materiaalien käsittelemiseksi [5]. ASL -kehys on suunniteltu toteuttamaan turvallisuus-, turvallisuus- ja toimintastandardit, jotka sopivat mallin potentiaaliin katastrofaaliseen riskiin, ja korkeammat ASL -tasot vaativat tiukempia turvallisuusosoituksia [5].

Antropisin parhaat nykyiset mallit ovat ASL-2: lla [4]. Yhtiö määrittelee ASL-2: n ja ASL-3: n suojaus- ja käyttöönottomittaukset, ja se sitoutuu määrittelemään ASL-4-turvatoimenpiteet ennen ASL-3-mallien kouluttamista [4]. ASL-1 viittaa järjestelmiin, jotka eivät aiheuta merkityksellistä katastrofaalista riskiä [5].

Antropinen on sijoitettu myös mekaaniseen tulkittavuuteen, johon sisältyy AI -järjestelmien sisäisen toiminnan leikkaaminen ja ymmärtäminen, erityisesti syvän oppimisen mallien, pyrkimyksissä tehdä AI -käyttäytymisestä ennustettavissa ja ymmärrettävämpää [5].

Viittaukset:
.
.
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemantice
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
.
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
.

Vastaus hämmentävyydestä: https://www.perplexity.ai/search/how-does-the-sling-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output