„Anthropic“ naudoja konstitucinius AI ir nekenksmingumo mokymus, kad užtikrintų, jog AI modeliai yra naudingi, sąžiningi ir nekenksmingi [3]. Šiuo požiūriu siekiama sumažinti prekės ženklo riziką ir užtikrinti, kad AI sistema būtų patikima, aiški ir valdoma [3]. „Anthropic“ modeliai yra skirti apdoroti didelius teksto duomenų kiekius, suprasti ir generuoti kodą, todėl jie yra naudingi programinės įrangos kūrimo užduotims ir kitoms programoms, tokioms kaip klientų aptarnavimas ir teisinis kodavimas [3].
Pagrindiniai „Anthropic“ požiūrio į samprotavimus skirtumai, palyginti su tradiciniais didelių kalbų modeliais, apima:
* Dėmesys AI saugai: „Antropic“ yra skirtas sukurti patikimas ir aiškinamas AI sistemas, suderinančias su žmogaus vertybėmis ir saugos standartais [2]. Bendrovė daugiausia dėmesio skiria rizikai, susijusios su AI, supratimu ir mažinimu, atliekant natūralios kalbos apdorojimo, žmonių atsiliepimų ir aiškinamumo tyrimus [2].
* Konstitucinė AI: Antropija naudoja konstitucinę AI, moko jos modelius skirtumą tarp teisingo ir neteisingo [7]. Šis naujas požiūris yra labai svarbus, nes kalbų modeliai vis labiau tampa faktų ir tiesos šaltiniais [7].
* Aiškinamos savybės: „Anthropic“ tyrėjai ištraukia aiškinamas ypatybes iš didelių kalbos modelių, tokių kaip „Claude 3“, paverčiant jas į žmogaus suplanuotas sąvokas [4]. Šios aiškinamos savybės gali būti taikomos tam pačiam koncepcijai skirtingomis kalbomis ir tiek vaizdams, tiek tekstui [4].
* LLMS proto žemėlapis: „Antropic“ padarė žingsnį iššifravus vidinį didelių kalbos modelių (LLM) veikimą, naudodama žodyno mokymąsi, kad būtų sudarytos milijonai funkcijų savo AI modelyje „Claude Sonnet“ [2]. Tai padidina AI saugumą ir aiškumą, siūlant gilesnį supratimą apie tai, kaip AI apdoroja informaciją [2]. Manipuliuodamas šiomis savybėmis, „Antropic“ gali pakeisti Claude'o atsakymus, parodydamas tiesioginį priežastinį ryšį tarp neuronų aktyvacijos ir modelio išvesties, kuris gali tiksliai sureguliuoti AI elgesį, kad padidintų saugumą ir našumą [2].
* Antropiniai samprotavimai: antropiniai samprotavimai teigia, kad stebėtojų egzistavimas nustato visatos ypatybių suvaržymus [1]. Silpnas antropinis principas (WAP) rodo, kad galime stebėti tik tuos visatos aspektus, suderinamus su mūsų, kaip stebėtojų, egzistavimu [1]. Stiprus antropinis principas (SAP) siūlo, kad Visatos įstatymai ir konstantos būtų struktūrizuoti taip, kad gyvenimas neišvengiamas [1]. Antropiniai samprotavimai pabrėžia būdingą atrankos paklaidą mūsų pastebėjimuose ir suteikia įžvalgos apie visatos derinimą ir mokslinio tyrimo suvaržymus [1].
Citatos:
[1]
[2] https://theaitrack.com/anthropic-maping-the-mind-of-large-language-models/
[3] https://help.prompttitude.io/en/articles/8892919-UnStrecept-Anthropic-Models-a-Simple-guide
[4] https://www.techrepublic.com/article/anthropic-laude-large-language-model-research/
[5] https://risingentropy.com/in-favor-of-anthropic-reasoning/
[6] https://www.anthropic.com/research/mapping-mind-liguage-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-laude-constitutional-ai
[8] https://www.activilop.ai/resources/how-to-compare-large-language-models gpt-4-3-5-vs-anthropic-laude-vs-cohere/