Antropisin lähestymistapa AI -turvallisuuteen ja perustuslailliseen AI: hen

Kuinka antropian lähestymistapa päättelyyn eroavat perinteisistä suurista kielimalleista

Antropia hyödyntää perustuslaillista AI- ja vaarattomuuden koulutusta varmistaakseen, että sen AI -mallit ovat hyödyllisiä, rehellisiä ja vaarattomia [3]. Tämän lähestymistavan tavoitteena on vähentää tuotemerkkiriskiä ja varmistaa, että AI -järjestelmä on luotettava, tulkittavissa ja ohjattava [3]. Antropisin mallit on suunniteltu käsittelemään suuria määriä tekstitietoja, koodin ymmärtämistä ja luomista, mikä tekee niistä hyödyllisiä ohjelmistokehitystehtävissä ja muissa sovelluksissa, kuten asiakaspalvelussa ja laillisessa koodauksessa [3].

Tärkeimmät erot antropian lähestymistavassa perusteluihin verrattuna perinteisiin suuriin kielimalleihin sisältävät:
* Keskity AI -turvallisuuteen: Antropinen on omistettu luotettavien ja tulkittavien AI -järjestelmien luomiseen, jotka ovat yhdenmukaisia inhimillisten arvojen ja turvallisuusstandardien kanssa [2]. Yhtiö keskittyy AI: hen liittyvien riskien ymmärtämiseen ja lieventämiseen luonnollisen kielen käsittelyn, ihmisen palautteen ja tulkittavuuden tutkimuksen avulla [2].
* Perustuslaillinen AI: Antropinen käyttää perustuslaillista AI: tä opettaen sen malleja oikean ja väärän välillä [7]. Tämä uusi lähestymistapa on ratkaisevan tärkeä, kun kielimalleista tulee yhä enemmän tosiasioita ja totuutta [7].
* Tulkittavissa olevat ominaisuudet: Antropisin tutkijat purkavat tulkittavia piirteitä suurista kielimalleista, kuten Claude 3, kääntämällä ne ihmisen ymmärtämättömiin käsitteisiin [4]. Nämä tulkittavissa olevat ominaisuudet voivat soveltaa samaan käsitteeseen eri kielillä ja sekä kuviin että tekstiin [4].
* LLMS: n mielen kartoittaminen: Antropinen on edistynyt suurten kielimallien (LLMS) sisäisen toiminnan salaamiseen käyttämällä sanakirjan oppimista miljoonien ominaisuuksien kartoittamiseen heidän AI -mallissaan, Claude Sonnet [2]. Tämä parantaa AI -turvallisuutta ja tulkittavuutta tarjoamalla syvemmän käsityksen siitä, kuinka AI käsittelee tietoa [2]. Manipuloimalla näitä piirteitä antropinen voi muuttaa Clauden vasteita osoittaen suoran syy-suhteen neuronien aktivointien ja mallin tuotoksen välillä, mikä voi hienosäätää AI-käyttäytymistä turvallisuuden ja suorituskyvyn parantamiseksi [2].
* Antropinen päättely: Antropinen päättely väittää, että tarkkailijoiden olemassaolo asettaa rajoituksia maailmankaikkeuden ominaisuuksille [1]. Heikko antropinen periaate (WAP) viittaa siihen, että voimme tarkkailla vain maailmankaikkeuden näkökohtia, jotka ovat yhteensopivia olemassaolomme kanssa tarkkailijoina [1]. Vahva antropinen periaate (SAP) ehdottaa, että maailmankaikkeuden lait ja vakiot on rakennettu siten, että elämä on väistämätöntä [1]. Antropinen päättely korostaa havaintojemme luontaista valintapoikkeamaa ja tarjoaa näkemyksiä maailmankaikkeuden hienosäätöstä ja tieteellisen tutkimuksen rajoituksista [1].

Viittaukset:
.
.
.
.
.
[6] https://www.anthropic.com/research/mapping-mind-language-model
.
.