Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Bagaimana cara fitur skala geser dalam model antropik bekerja


Bagaimana cara fitur skala geser dalam model antropik bekerja


Anthropic menggunakan "kebijakan penskalaan yang bertanggung jawab" (RSP) untuk mengelola risiko yang terkait dengan model AI yang semakin mampu [5]. Kebijakan ini menggunakan kerangka kerja yang disebut AI Safety Level (ASL), menarik inspirasi dari standar tingkat hayati pemerintah AS untuk menangani bahan biologis berbahaya [5]. Kerangka kerja ASL dirancang untuk menerapkan standar keselamatan, keamanan, dan operasional yang sesuai dengan potensi model untuk risiko bencana, dengan tingkat ASL yang lebih tinggi yang membutuhkan demonstrasi keselamatan yang lebih ketat [5].

Model terbaik Anthropic saat ini berada di ASL-2 [4]. Perusahaan mendefinisikan langkah-langkah penahanan dan penyebaran untuk ASL-2 dan ASL-3, dan berkomitmen untuk mendefinisikan langkah-langkah keamanan ASL-4 sebelum melatih model ASL-3 [4]. ASL-1 mengacu pada sistem yang tidak menimbulkan risiko bencana yang bermakna [5].

Antropik juga diinvestasikan dalam interpretabilitas mekanistik, yang melibatkan membedah dan memahami cara kerja internal sistem AI, terutama model pembelajaran yang mendalam, dalam upaya membuat perilaku AI lebih mudah diprediksi dan dimengerti [5].

Kutipan:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-urge-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-understanding-anthropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflection-on-our-responsible-scaling-policy

Jawaban dari Perplexity: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output