Antropic využívá ústavní trénink AI a neškodnosti, aby zajistil, že její modely AI jsou užitečné, čestné a neškodné [3]. Cílem tohoto přístupu je snížit riziko značky a zajišťuje, že systém AI je spolehlivý, interpretovatelný a řízený [3]. Modely Anthropic jsou navrženy tak, aby zpracovávaly velké množství textových dat, porozumění a generování kódu, což je činí užitečné pro úkoly vývoje softwaru a další aplikace, jako je zákaznický servis a právní kódování [3].
Klíčové rozdíly v přístupu Anthropic k uvažování ve srovnání s tradičními modely velkých jazyků zahrnují:
* Zaměření na bezpečnost AI: Antropic je věnována vytváření spolehlivých a interpretovatelných systémů AI, které odpovídají lidským hodnotám a bezpečnostními standardy [2]. Společnost se zaměřuje na porozumění a zmírňování rizik spojených s AI prostřednictvím výzkumu při zpracování přirozeného jazyka, zpětné vazby a interpretovatelností [2].
* Ústavní AI: Antropic využívá ústavní AI a učí své modely rozdíl mezi správným a nesprávným [7]. Tento nový přístup je zásadní, protože jazykové modely se stále více stávají zdroji faktů a pravdy [7].
* Interpretovatelné rysy: Vědci Antropic extrahují interpretovatelné rysy z velkých jazykových modelů, jako je Claude 3, převádějící je do pojmových konceptů s člověkem [4]. Tyto interpretovatelné rysy se mohou vztahovat na stejný koncept v různých jazycích a na obrázky i text [4].
* Mapování mysli LLM: Antropic učinil pokroky při dešifrování vnitřních fungování velkých jazykových modelů (LLM) pomocí učení slovníku k mapování milionů funkcí v jejich modelu AI, Claude Sonnet [2]. To zvyšuje bezpečnost a interpretovatelnost AI a nabízí hlubší pochopení toho, jak AI zpracovává informace [2]. Manipulací s těmito vlastnostmi může antropic změnit Claudeovy odpovědi, což prokazuje přímý kauzální vztah mezi aktivací neuronů a modelovým výstupem, který může doladit chování AI, aby se zvýšila bezpečnost a výkon [2].
* Antropické uvažování: Antropické uvažování předpokládá, že existence pozorovatelů ukládá omezení charakteristik vesmíru [1]. Slabý antropický princip (WAP) naznačuje, že můžeme pozorovat pouze ty aspekty vesmíru, které jsou kompatibilní s naší existencí jako pozorovatelé [1]. Silný antropický princip (SAP) navrhuje, aby zákony a konstanty vesmíru byly strukturovány tak, aby byl život nevyhnutelný [1]. Antropické uvažování zdůrazňuje přirozenou zkreslení výběru v našich pozorováních a poskytuje vhled do jemného doladění vesmíru a omezení vědeckého šetření [1].
Citace:
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-anthropic-asoning-in-Unstanding-the-iverse/
[2] https://theaitrack.com/anthropic-mapping-the-lind-of--Language-models/
[3] https://help.promptoptitude.io/en/articles/8892919-Unstanding-Anthropic-Models-a-Simple-Guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingenthropy.com/in-favor-of-anthropic-socing/
[6] https://www.anthropic.com/research/Mapping-lguage-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitutional-ai
[8] https://www.activeoop.ai/resources/how-to-compare-large-models-gpt-4-3-5-vs-anthropic-claude-vs-cohere/dred/