Antropik menggunakan AI konstitusional dan pelatihan yang tidak berbahaya untuk memastikan model AI -nya membantu, jujur, dan tidak berbahaya [3]. Pendekatan ini bertujuan untuk mengurangi risiko merek dan memastikan sistem AI dapat diandalkan, dapat ditafsirkan, dan dapat dikendalikan [3]. Model Anthropic dirancang untuk memproses sejumlah besar data teks, memahami dan menghasilkan kode, membuatnya berguna untuk tugas pengembangan perangkat lunak dan aplikasi lain seperti layanan pelanggan dan pengkodean hukum [3].
Perbedaan utama dalam pendekatan antropik untuk penalaran, dibandingkan dengan model bahasa besar tradisional, meliputi:
* Fokus pada Keselamatan AI: Antropik didedikasikan untuk menciptakan sistem AI yang dapat diandalkan dan dapat ditafsirkan yang selaras dengan nilai -nilai manusia dan standar keamanan [2]. Perusahaan berfokus pada pemahaman dan mengurangi risiko yang terkait dengan AI melalui penelitian dalam pemrosesan bahasa alami, umpan balik manusia, dan interpretabilitas [2].
* AI Konstitusi: Antropik menggunakan AI konstitusional, mengajarkan modelnya perbedaan antara benar dan salah [7]. Pendekatan baru ini sangat penting karena model bahasa semakin menjadi sumber fakta dan kebenaran [7].
* Fitur yang Dapat Diperterpastikan: Para peneliti antropik mengekstrak fitur yang dapat ditafsirkan dari model bahasa besar seperti Claude 3, menerjemahkannya ke dalam konsep manusia yang dapat dipahami [4]. Fitur -fitur yang dapat ditafsirkan ini dapat diterapkan pada konsep yang sama dalam bahasa yang berbeda dan untuk gambar dan teks [4].
* Memetakan pikiran LLMS: Antropik telah membuat langkah dalam menguraikan cara kerja dalam model bahasa besar (LLM) dengan menggunakan pembelajaran kamus untuk memetakan jutaan fitur dalam model AI mereka, Claude Sonnet [2]. Ini meningkatkan keamanan dan interpretabilitas AI, menawarkan pemahaman yang lebih dalam tentang bagaimana AI memproses informasi [2]. Dengan memanipulasi fitur-fitur ini, antropik dapat mengubah respons Claude, menunjukkan hubungan sebab akibat langsung antara aktivasi neuron dan output model, yang dapat menyempurnakan perilaku AI untuk meningkatkan keamanan dan kinerja [2].
* Penalaran Antropik: Penalaran antropik berpendapat bahwa keberadaan pengamat memaksakan kendala pada karakteristik alam semesta [1]. Prinsip antropik yang lemah (WAP) menunjukkan bahwa kita hanya dapat mengamati aspek -aspek alam semesta yang kompatibel dengan keberadaan kita sebagai pengamat [1]. Prinsip antropik yang kuat (SAP) mengusulkan bahwa hukum dan konstanta alam semesta terstruktur sehingga kehidupan tidak bisa dihindari [1]. Penalaran antropik menekankan bias seleksi yang melekat dalam pengamatan kami dan memberikan wawasan tentang penyempurnaan alam semesta dan kendala pada penyelidikan ilmiah [1].
Kutipan:
[1.
[2] https://theaitrack.com/anthropic-mapping-the-find-flarge-language-models/
[3] https://help.promptitude.io/en/articles/8892919-understanding-anthropic-models-a-simple-guide
[4.
[5] https://risingentropy.com/in-favor-of-anthropic-reasoning/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitutional-ai
[8] https://www.activeop.ai/resources/how-to-compare-large-ganguage-models-gpt-4-3-5-vs-anthropic-claude-vs-cohere/