Anthropic은 AI 모델이 도움이되고 정직하며 무해한 것을 보장하기 위해 헌법 AI와 무해한 훈련을 활용합니다 [3]. 이 접근법은 브랜드 위험을 줄이고 AI 시스템이 신뢰할 수 있고 해석 가능하며 조종 가능하도록하는 것을 목표로합니다 [3]. Anthropic의 모델은 많은 양의 텍스트 데이터를 처리하고 코드를 이해하고 생성하여 소프트웨어 개발 작업 및 고객 서비스 및 법적 코딩과 같은 기타 응용 프로그램에 유용하도록 설계되었습니다 [3].
전통적인 대형 언어 모델과 비교하여 Anthropic의 추론 접근 방식의 주요 차이점에는 다음이 포함됩니다.
* AI 안전에 중점을 둡니다. Anthropic은 인간의 가치 및 안전 표준에 맞는 신뢰할 수 있고 해석 가능한 AI 시스템을 만드는 데 전념하고 있습니다 [2]. 이 회사는 자연 언어 처리, 인간 피드백 및 해석 가능성에 대한 연구를 통해 AI와 관련된 위험을 이해하고 완화하는 데 중점을 둡니다 [2].
* 헌법 AI : 인류는 헌법 AI를 사용하여 모델에 옳고 그름의 차이를 가르치고있다 [7]. 이 새로운 접근법은 언어 모델이 점차 사실과 진실의 원천이되기 때문에 중요하다 [7].
* 해석 가능한 특징 : Anthropic의 연구자들은 Claude 3과 같은 대형 언어 모델에서 해석 가능한 기능을 추출하여 인간 이해할 수있는 개념으로 번역합니다 [4]. 이러한 해석 가능한 기능은 다른 언어로 동일한 개념과 이미지와 텍스트 모두에 적용될 수 있습니다 [4].
* LLM의 마음 매핑 : Anthropic은 사전 학습을 사용하여 AI 모델 인 Claude Sonnet [2]에 수백만 개의 기능을 매핑함으로써 대형 언어 모델 (LLM)의 내부 작업을 해독하는 데 진전을 이루었습니다. 이것은 AI 안전과 해석 성을 향상시켜 AI가 정보를 처리하는 방법에 대한 더 깊은 이해를 제공합니다 [2]. 이러한 특징을 조작함으로써, 안트로는 클로드의 반응을 변화시켜 뉴런 활성화와 모델의 출력 사이의 직접적인 인과 관계를 보여줄 수 있으며, 이는 AI 동작을 안전과 성능을 향상시키기 위해 미세 조정할 수있다 [2].
* 인간적 추론 : 인간적 추론은 관찰자의 존재가 우주의 특성에 대한 제약을 부과한다고 주장한다 [1]. 약한 의인성 원리 (WAP)는 우리가 관찰자로서 우리의 존재와 호환되는 우주의 측면만을 관찰 할 수 있음을 시사한다 [1]. 강력한 인위적 원리 (SAP)는 우주의 법과 상수가 생명이 불가피하도록 구성되어 있다고 제안한다 [1]. 의인성 추론은 우리의 관찰에서 고유 한 선택 편견을 강조하고 우주의 미세 조정과 과학적 탐구에 대한 제약에 대한 통찰력을 제공한다 [1].
인용 :
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-anthropic-reasoning-in-understanding-the-universe/
[2] https://theaitrack.com/anthropic-mapping-the-mind-of-large-language-models/
[3] https://help.promptitude.io/en/articles/8892919- underding-anthropic-models-a-simple-guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingertopy.com/in-favor-of-anthropic-reasoning/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitution-ai
[8] https://www.activeloop.ai/resources/how-to-compare-large-language-models-4-3-5-vs-anthropic-claude-vs-cohere/