Kuidas töötab Anthropici mudeli libisev skaala

See poliitika kasutab raamistikku, mida nimetatakse AI ohutustasemeks (ASL), tuginedes inspiratsiooni USA valitsuse bioohutuse taseme standarditest ohtlike bioloogiliste materjalide käitlemiseks [5]. ASL -i raamistik on mõeldud ohutuse, turvalisuse ja tööstandardite rakendamiseks, mis sobivad mudeli katastroofilise riski potentsiaaliga, kõrgemad ASL -i tasemed nõuavad rangemaid ohutuse demonstratsioone [5].

Anthropici parimad praegused mudelid on ASL-2 juures [4]. Ettevõte määratleb ASL-2 ja ASL-3 isoleerimise ja juurutamise meetmed ning see kohustub enne ASL-3 mudelite koolitamist määratlema ASL-4 ohutusmeetmed [4]. ASL-1 viitab süsteemidele, mis ei kujuta endast olulist katastroofilist riski [5].

Antropiline on investeeritud ka mehhaanilisse tõlgendatavusesse, mis hõlmab AI -süsteemide, eriti sügavaõppe mudelite sisemise toimimise lahkamist ja mõistmist, et muuta AI käitumine etteaimatavamaks ja arusaadavamaks [5].

Tsitaadid:
]
]
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
]
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
]

Vastus hämmingust: https://www.perplexity.ai/search/how-does-the-sliing-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output