Antropic izmanto konstitucionālo AI un nekaitīguma apmācību, lai nodrošinātu, ka tā AI modeļi ir noderīgi, godīgi un nekaitīgi [3]. Šīs pieejas mērķis ir samazināt zīmola risku un nodrošina, ka AI sistēma ir uzticama, interpretējama un vadāma [3]. Anthropic modeļi ir izstrādāti, lai apstrādātu lielu teksta datu daudzumu, izpratni un koda ģenerēšanu, padarot tos noderīgus programmatūras izstrādes uzdevumos un citās lietojumprogrammās, piemēram, klientu apkalpošanā un juridiskajā kodēšanā [3].
Galvenās atšķirības Antropic pieejā argumentācijā, salīdzinot ar tradicionālajiem lielo valodu modeļiem, ietver:
* Koncentrējieties uz AI drošību: Antropic ir veltīts uzticamu un interpretējamu AI sistēmu izveidošanai, kas atbilst cilvēka vērtībām un drošības standartiem [2]. Uzņēmums koncentrējas uz risku izpratni un mīkstināšanu, kas saistīti ar AI, pētot dabiskās valodas apstrādi, cilvēku atgriezenisko saiti un interpretējamību [2].
* Konstitucionālā AI: Antropic izmanto konstitucionālo AI, iemācot saviem modeļiem atšķirību starp labo un nepareizo [7]. Šī jaunā pieeja ir būtiska, jo valodu modeļi arvien vairāk kļūst par faktu un patiesības avotiem [7].
* Interpretējamas iezīmes: Antropic pētnieki iegūst interpretējamas iezīmes no lielām valodas modeļiem, piemēram, Claude 3, tulkojot tos cilvēku saprotamos jēdzienos [4]. Šīs interpretējamās funkcijas var attiekties uz vienu un to pašu jēdzienu dažādās valodās un gan attēliem, gan tekstam [4].
* LLM prāta kartēšana: Antropic ir veicis soļus, atšifrējot lielo valodu modeļu iekšējo darbību (LLM), izmantojot vārdnīcu mācīšanos, lai kartētu miljoniem funkciju savā AI modelī Claude Sonnet [2]. Tas uzlabo AI drošību un interpretējamību, piedāvājot dziļāku izpratni par to, kā AI apstrādā informāciju [2]. Manipulējot ar šīm pazīmēm, antropiski var mainīt Kloda atbildes, parādot tiešu cēloņsakarību starp neironu aktivizēšanu un modeļa iznākumu, kas var precīzi pielāgot AI izturēšanos, lai uzlabotu drošību un veiktspēju [2].
* Antropiskā spriešana: Antropiskā argumentācija norāda, ka novērotāju esamība uzliek ierobežojumus Visuma īpašībām [1]. Vājais antropiskais princips (WAP) liek domāt, ka mēs varam novērot tikai tos Visuma aspektus, kas ir savietojami ar mūsu kā novērotāju esamību [1]. Spēcīgais antropiskais princips (SAP) ierosina, ka Visuma likumi un konstantes ir strukturētas tā, lai dzīve būtu neizbēgama [1]. Antropiskā argumentācija uzsver raksturīgo atlases novirzi mūsu novērojumos un sniedz ieskatu Visuma precizēšanā un zinātniskās izmeklēšanas ierobežojumos [1].
Atsauces:
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-anthropic-reasoning-in-nunstanding-the-universe/
[2] https://theaalck.com/anthropic-mapping-the-the-of-large-wanguage-models/
[3.]
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingentropy.com/in-cavor-of-anthropic-reasoring/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitucional-A
[8] https://www.activeloop.ai/resources/how-to-compare-large-language-models-gpt-4-3-5-vs-anthropic-claude-vs-cohere/