Antropik, AI modellerinin yararlı, dürüst ve zararsız olmasını sağlamak için anayasal yapay zeka ve zararsızlık eğitimi kullanır [3]. Bu yaklaşım marka riskini azaltmayı amaçlamaktadır ve AI sisteminin güvenilir, yorumlanabilir ve yönlendirilebilir olmasını sağlar [3]. Antropik modelleri, büyük miktarda metin verisini işlemek, kodları anlamak ve oluşturmak için tasarlanmıştır, bu da onları yazılım geliştirme görevleri ve müşteri hizmetleri ve yasal kodlama gibi diğer uygulamalar için yararlı hale getirir [3].
Antropik'in akıl yürütme yaklaşımındaki temel farklılıklar, geleneksel büyük dil modellerine kıyasla şunları içerir:
* Yapay zeka güvenliğine odaklanın: Antropik, insan değerleri ve güvenlik standartları ile uyumlu güvenilir ve yorumlanabilir AI sistemleri yaratmaya adanmıştır [2]. Şirket, doğal dil işleme, insan geri bildirimleri ve yorumlanabilirlik araştırmaları yoluyla AI ile ilişkili riskleri anlamaya ve azaltmaya odaklanmaktadır [2].
* Anayasal AI: Antropik, modellerine doğru ve yanlış arasındaki farkı öğreterek anayasal yapay zeka kullanır [7]. Bu yeni yaklaşım, dil modelleri giderek daha fazla gerçek ve gerçek kaynakları haline geldiğinden çok önemlidir [7].
* Yorumlanabilir Özellikler: Antropik araştırmacılar, Claude 3 gibi büyük dil modellerinden yorumlanabilir özellikleri çıkararak insanlarla anlaşılabilir kavramlara çevirirler [4]. Bu yorumlanabilir özellikler aynı kavram için farklı dillerde hem de hem görüntülerde hem de metinlere uygulanabilir [4].
* LLM'lerin zihnini haritalamak: Antropic, AI modelleri Claude Sonnet'teki milyonlarca özelliği haritalamak için sözlük öğrenmeyi kullanarak büyük dil modellerinin (LLMS) iç işleyişini deşifre etmede adımlar atmıştır [2]. Bu, AI'nın bilgiyi nasıl işlediğine dair daha derin bir anlayış sunarak AI güvenlik ve yorumlanabilirliği geliştirir [2]. Bu özellikleri manipüle ederek, antropik Claude'un yanıtlarını değiştirebilir, nöron aktivasyonları ile modelin çıkışı arasında doğrudan nedensel bir ilişki olduğunu gösterir, bu da güvenlik ve performansı arttırmak için AI davranışını ince ayarlayabilir [2].
* Antropik akıl yürütme: Antropik akıl yürütme, gözlemcilerin varlığının evrenin özellikleri üzerinde kısıtlamalar getirdiğini göstermektedir [1]. Zayıf antropik prensip (WAP), sadece evrenin gözlemci olarak varlığımızla uyumlu yönlerini gözlemleyebileceğimizi göstermektedir [1]. Güçlü antropik prensip (SAP), evrenin yasalarının ve sabitlerinin yaşamın kaçınılmaz olacağı şekilde yapılandırıldığını önermektedir [1]. Antropik akıl yürütme, gözlemlerimizdeki doğal seçim yanlılığını vurgular ve evrenin ince ayarlanması ve bilimsel araştırma kısıtlamaları hakkında bilgi verir [1].
Alıntılar:
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-antropic-wensing-in-und anghting-the-niverse/
[2] https://theaitrack.com/anthropic-harping-the-mind-of-large-language-modeller/
[3] https://help.promptitude.io/en/articles/8892919-understance-antropic-models-a-pm-guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-model-reesearch/
[5] https://risingentropy.com/in-favor-of-antropic-weasoning/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitutional-ai
[8] https://www.activeloop.ai/resources/how-to-compare-large-language-modeller