Come funziona la caratteristica della scala mobile nel modello antropico

Antropico impiega una "politica di ridimensionamento responsabile" (RSP) per gestire i rischi legati a modelli AI sempre più capaci [5]. Questa politica utilizza un quadro chiamato AI Safety Livels (ASL), attingendo ispirazione dagli standard a livello di biosicurezza del governo degli Stati Uniti per la gestione di materiali biologici pericolosi [5]. Il framework ASL è progettato per implementare gli standard di sicurezza, sicurezza e operativi adatti al potenziale di un modello di rischio catastrofico, con livelli ASL più elevati che richiedono dimostrazioni più rigorose di sicurezza [5].

I migliori modelli di corrente antropica sono su ASL-2 [4]. La società definisce misure di contenimento e distribuzione per ASL-2 e ASL-3 e si impegna a definire le misure di sicurezza ASL-4 prima di addestrare i modelli ASL-3 [4]. ASL-1 si riferisce a sistemi che non presentano un rischio catastrofico significativo [5].

L'antropico è anche investito nell'interpretazione meccanicistica, che prevede la dissezione e la comprensione del funzionamento interno dei sistemi di intelligenza artificiale, in particolare dei modelli di apprendimento profondo, nel tentativo di rendere il comportamento di intelligenza artificiale più prevedibile e comprensibile [5].

Citazioni:
[1] https://www.prompthub.us/blog/using-anthropop-best-practices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropopic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticcity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-understanding-anthropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropopic-reflections-on-our-responsible-scaling-policy

Risposta dalla perplessità: https://www.perplexity.ai/search/how-does-the-sliding-scale-fEa-4flssmynqgibu47rvk8b7g?utm_source=copy_output