Anthropic nutzt eine konstitutionelle KI- und Harmlosigkeitstraining, um sicherzustellen, dass seine KI -Modelle hilfreich, ehrlich und harmlos sind [3]. Dieser Ansatz zielt darauf ab, das Markenrisiko zu verringern und sicherzustellen, dass das KI -System zuverlässig, interpretierbar und lenkbar ist [3]. Die Modelle von Anthropic sind so konzipiert, dass sie große Mengen an Textdaten, das Verständnis und das Generieren von Code verarbeiten und sie für Softwareentwicklungsaufgaben und andere Anwendungen wie Kundendienst und rechtliche Codierung nützlich machen [3].
Wichtige Unterschiede im Ansatz von Anthropic zur Argumentation im Vergleich zu herkömmlichen großsprachigen Modellen umfassen:
* Konzentrieren Sie sich auf KI -Sicherheit: Anthropic ist der Erstellung zuverlässiger und interpretierbarer KI -Systeme gewidmet, die auf menschliche Werte und Sicherheitsstandards übereinstimmen [2]. Das Unternehmen konzentriert sich auf das Verständnis und die Minderung von Risiken im Zusammenhang mit KI durch Forschung in der Verarbeitung natürlicher Sprache, des menschlichen Feedbacks und der Interpretierbarkeit [2].
* Konstitutionelle KI: Anthropisch beschäftigt eine konstitutionelle KI und lehrt ihre Modelle den Unterschied zwischen Recht und Falsch [7]. Dieser neuartige Ansatz ist entscheidend, da Sprachmodelle zunehmend zu Quellen von Fakten und Wahrheit werden [7].
* Interpretierbare Merkmale: Die Forscher von Anthropic extrahieren interpretierbare Merkmale aus großen Sprachmodellen wie Claude 3 und übersetzen sie in menschlich verständliche Konzepte [4]. Diese interpretierbaren Merkmale können für dasselbe Konzept in verschiedenen Sprachen und sowohl für Bilder als auch für Text [4] gelten.
* Zuordnung des Geistes von LLMs: Anthropic hat Fortschritte bei der Entschlüsselung der inneren Arbeiten von Großsprachemodellen (LLMs) gemacht, indem das Wörterbuch Learning verwendet wird, um Millionen von Merkmalen in ihrem KI -Modell Claude Sonnet [2] zu kartieren. Dies verbessert die Sicherheit und Interpretierbarkeit von KI und bietet ein tieferes Verständnis dafür, wie KI Informationen verarbeitet [2]. Durch die Manipulation dieser Merkmale kann Anthropic die Reaktionen von Claude verändern und eine direkte kausale Beziehung zwischen Neuronenaktivierungen und dem Modell des Modells zeigen, das das Verhalten von AI fein abstellen kann, um die Sicherheit und Leistung zu verbessern [2].
* Anthropisches Denken: Anthropisches Denken setzt darauf, dass die Existenz von Beobachtern Einschränkungen der Eigenschaften des Universums auferlegt [1]. Das schwache anthropische Prinzip (WAP) legt nahe, dass wir nur die Aspekte des Universums beobachten können, die mit unserer Existenz als Beobachter vereinbar sind [1]. Das starke anthropische Prinzip (SAP) schlägt vor, dass die Gesetze und Konstanten des Universums so strukturiert sind, dass das Leben unvermeidlich ist [1]. Anthropisches Denken betont die inhärente Auswahlverzerrung in unseren Beobachtungen und liefert Einblicke in die Feinabstimmung des Universums und die Einschränkungen für die wissenschaftliche Untersuchung [1].
Zitate:
[1] https://newspeceeconomy.ca/2024/11/23/the-role-of-anthropic-rasoning-in-nerceing-the-universe/
[2] https://theaitrack.com/anthropic-mapping-the-mindof-large-language-models/
[3] https://help.promptitude.io/en/articles/8892919-verstanding-anthropic-models-a-simple-guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingentropy.com/in-favor-of-anthropic-reasoning/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-clude-constitutional-ai
[8] https://www.activeloop.ai/resources/how-to-compare-large-language-models-gpt-4-3-5-vs-anthropic-claude-vs-cohere/