Abordarea antropică a siguranței AI și a AI constituțională

Cum diferă abordarea antropică a raționamentului de modelele tradiționale de limbaj mare

Antropic folosește AI -ul constituțional și pregătirea de inovare pentru a se asigura că modelele sale AI sunt utile, oneste și inofensive [3]. Această abordare își propune să reducă riscul de marcă și asigură că sistemul AI este fiabil, interpretabil și ascuns [3]. Modelele Anthropic sunt concepute pentru a prelucra cantități mari de date text, înțelegerea și generarea de cod, ceea ce le face utile pentru sarcinile de dezvoltare software și alte aplicații, cum ar fi serviciul pentru clienți și codificarea legală [3].

Diferențele cheie în abordarea antropică a raționamentului, în comparație cu modelele tradiționale de limbaj mare, includ:
* Concentrați -vă pe siguranța AI: Antropic este dedicat creării sistemelor AI fiabile și interpretabile care se aliniază valorilor umane și standardelor de siguranță [2]. Compania se concentrează pe înțelegerea și atenuarea riscurilor asociate cu AI prin cercetări în procesarea limbajului natural, feedback -ul uman și interpretabilitate [2].
* AI constituțională: Antropic angajează AI constituțională, învățând modelele sale diferența dintre drept și greșit [7]. Această abordare nouă este crucială, deoarece modelele de limbă devin din ce în ce mai mult surse de fapte și adevăr [7].
* Caracteristici interpretabile: Cercetătorii Anthropic extrag caracteristici interpretabile de pe modele de limbaj mare precum Claude 3, traducerea lor în concepte de înțelegere a omului [4]. Aceste caracteristici interpretabile se pot aplica aceluiași concept în limbi diferite și atât imagini, cât și text [4].
* Cartografierea minții LLM -urilor: Antropic a făcut progrese în descifrarea funcționării interioare a modelelor de limbaj mare (LLM), folosind învățarea dicționarului pentru a cartografia milioane de caracteristici în modelul lor AI, Claude Sonet [2]. Acest lucru îmbunătățește siguranța și interpretabilitatea AI, oferind o înțelegere mai profundă a modului în care AI procesează informațiile [2]. Prin manipularea acestor caracteristici, antropic poate modifica răspunsurile lui Claude, demonstrând o relație de cauzalitate directă între activările neuronilor și ieșirea modelului, care poate regla comportamentul AI pentru a îmbunătăți siguranța și performanța [2].
* Raționament antropic: raționamentul antropic consideră că existența observatorilor impune constrângeri asupra caracteristicilor universului [1]. Principiul antropic slab (WAP) sugerează că putem observa doar acele aspecte ale universului care sunt compatibile cu existența noastră ca observatori [1]. Principiul antropic puternic (SAP) propune ca legile și constantele universului să fie structurate, astfel încât viața să fie inevitabilă [1]. Raționamentul antropic subliniază prejudecățile de selecție inerente în observațiile noastre și oferă informații despre reglarea fină a universului și constrângerile privind ancheta științifică [1].

Citări:
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-antropic-herseasoning-in-iniderstanding-the-universe/
]
[3] https://help.promptitude.io/en/articles/8892919-INENDERSTANDING-ANTROPIC-MODELS A-SIMPLE-GUIDE
]
.
[6] https://www.antropic.com/research/mapping-mind-nanguage-model
[7] https://www.marketingaiinstitute.com/blog/antropic-claude-constituțional-AI
[8] https://www.activeloop.ai/resources/how-to-compare-limarge-limugage-models-gpt-4-3-5-vs-ntropic-claude-vs-cohere/