Antropisk bruger forfatningsmæssig AI og ufarlig træning for at sikre, at dens AI -modeller er nyttige, ærlige og ufarlige [3]. Denne tilgang sigter mod at reducere brandrisikoen og sikrer, at AI -systemet er pålideligt, tolkbart og styrbart [3]. Anthropics modeller er designet til at behandle store mængder tekstdata, forståelse og generere kode, hvilket gør dem nyttige til softwareudviklingsopgaver og andre applikationer såsom kundeservice og juridisk kodning [3].
De vigtigste forskelle i Anthropics tilgang til ræsonnement sammenlignet med traditionelle store sprogmodeller inkluderer:
* Fokus på AI -sikkerhed: Antropisk er dedikeret til at skabe pålidelige og fortolkbare AI -systemer, der er i overensstemmelse med menneskelige værdier og sikkerhedsstandarder [2]. Virksomheden fokuserer på at forstå og afbøde risici forbundet med AI gennem forskning i naturlig sprogbehandling, menneskelig feedback og fortolkningsevne [2].
* Konstitutionel AI: Antropisk anvender forfatningsmæssig AI og underviser i modellerne forskellen mellem rigtigt og forkert [7]. Denne nye tilgang er afgørende, da sprogmodeller i stigende grad bliver kilder til fakta og sandhed [7].
* Fortolkbare funktioner: Anthropics forskere udtrækker fortolkbare funktioner fra store sprogmodeller som Claude 3, der oversætter dem til menneskelige forståelige koncepter [4]. Disse fortolkbare funktioner kan gælde for det samme koncept på forskellige sprog og både billeder og tekst [4].
* Kortlægning af LLMS's sind: Antropiske har gjort fremskridt med at dechiffrere de indre arbejde med store sprogmodeller (LLM'er) ved hjælp af undervisning i ordbog til at kortlægge millioner af funktioner inden for deres AI -model, Claude Sonnet [2]. Dette forbedrer AI -sikkerhed og fortolkningsevne og giver en dybere forståelse af, hvordan AI behandler information [2]. Ved at manipulere disse funktioner kan antropisk ændre Claude's svar og demonstrere en direkte årsagssammenhæng mellem neuronaktiveringer og modellens output, hvilket kan finjustere AI-adfærd for at forbedre sikkerhed og ydeevne [2].
* Antropisk ræsonnement: Antropisk ræsonnement hævder, at eksistensen af observatører pålægger universets egenskaber [1]. Det svage antropiske princip (WAP) antyder, at vi kun kan observere de aspekter af universet, der er kompatible med vores eksistens som observatører [1]. Det stærke antropiske princip (SAP) foreslår, at universets love og konstanter er struktureret, så livet er uundgåeligt [1]. Antropisk ræsonnement understreger den iboende udvælgelsesbias i vores observationer og giver indsigt i universets finjustering og begrænsningerne for videnskabelig undersøgelse [1].
Citater:
[Jeg
[2] https://theaitrack.com/anthropic-mapping-the-smind-of-large-language-models/
[3] https://help.promptitude.io/en/articles/8892919-forstående-antropiske-modeller-a-Simple-guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingentropy.com/in-Favor-of-antropic-Reasoning/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-laude-constitutional-i
[8] https://www.activeloop.ai/resources/how-to-compare-large-language-models-t