Anthropic använder konstitutionell AI och ofarlighetsträning för att säkerställa att dess AI -modeller är hjälpsamma, ärliga och ofarliga [3]. Detta tillvägagångssätt syftar till att minska varumärkesrisken och säkerställer att AI -systemet är tillförlitligt, tolkbart och styrbart [3]. Anthropics modeller är utformade för att behandla stora mängder textdata, förståelse och generera kod, vilket gör dem användbara för mjukvaruutvecklingsuppgifter och andra applikationer som kundservice och laglig kodning [3].
Viktiga skillnader i Anthropics inställning till resonemang, jämfört med traditionella stora språkmodeller, inkluderar:
* Fokus på AI -säkerhet: Anthropic ägnas åt att skapa pålitliga och tolkbara AI -system som överensstämmer med mänskliga värden och säkerhetsstandarder [2]. Företaget fokuserar på att förstå och mildra risker förknippade med AI genom forskning inom naturlig språkbearbetning, mänsklig feedback och tolkbarhet [2].
* Konstitutionell AI: Anthropic använder konstitutionell AI och lär sina modeller skillnaden mellan rätt och fel [7]. Denna nya metod är avgörande eftersom språkmodeller i allt högre grad blir källor till fakta och sanning [7].
* Tolkbara funktioner: Anthropics forskare extraherar tolkbara funktioner från stora språkmodeller som Claude 3, och översätter dem till mänskliga förstärkbara koncept [4]. Dessa tolkbara funktioner kan gälla samma koncept på olika språk och både bilder och text [4].
* Kartläggning av LLM: s sinne: Anthropic har gjort framsteg för att dechiffrera de inre funktionerna i stora språkmodeller (LLM) genom att använda ordbokinlärning för att kartlägga miljoner funktioner inom deras AI -modell, Claude Sonnet [2]. Detta förbättrar AI -säkerhet och tolkbarhet och erbjuder en djupare förståelse för hur AI bearbetar information [2]. Genom att manipulera dessa funktioner kan antropisk förändra Claude: s svar, vilket visar ett direkt kausalförhållande mellan neuronaktiveringar och modellens utgång, vilket kan finjustera AI-beteendet för att förbättra säkerheten och prestanda [2].
* Antropisk resonemang: Antropisk resonemang hävdar att förekomsten av observatörer sätter begränsningar för universums egenskaper [1]. Den svaga antropiska principen (WAP) antyder att vi endast kan observera de aspekter av universum som är förenliga med vår existens som observatörer [1]. Den starka antropiska principen (SAP) föreslår att universums lagar och konstanter är strukturerade så att livet är oundvikligt [1]. Antropisk resonemang betonar den inneboende urvalsförskjutningen i våra observationer och ger insikter om universums finjustering och begränsningarna för vetenskaplig utredning [1].
Citeringar:
]
[2] https://theaitrack.com/anthropic-mapping-the-mind-of-large-language-models/
]
[4] https://www.techrepublic.com/article/anthropic-laude-llarge-language-model-research/
]
[6] https://www.antropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-laude-constitutional-ai
]