Nhân loại sử dụng AI hiến pháp và đào tạo vô hại để đảm bảo các mô hình AI của nó là hữu ích, trung thực và vô hại [3]. Cách tiếp cận này nhằm mục đích giảm rủi ro thương hiệu và đảm bảo hệ thống AI là đáng tin cậy, có thể hiểu được và có thể sử dụng được [3]. Các mô hình của Anthropic được thiết kế để xử lý một lượng lớn dữ liệu văn bản, hiểu và tạo mã, giúp chúng hữu ích cho các tác vụ phát triển phần mềm và các ứng dụng khác như dịch vụ khách hàng và mã hóa hợp pháp [3].
Sự khác biệt chính trong cách tiếp cận lý luận của nhân học, so với các mô hình ngôn ngữ lớn truyền thống, bao gồm:
* Tập trung vào AI An toàn: Nhân chủng học được dành riêng để tạo ra các hệ thống AI đáng tin cậy và có thể hiểu được phù hợp với các giá trị và tiêu chuẩn an toàn của con người [2]. Công ty tập trung vào sự hiểu biết và giảm thiểu rủi ro liên quan đến AI thông qua nghiên cứu về xử lý ngôn ngữ tự nhiên, phản hồi của con người và khả năng diễn giải [2].
* AI hiến pháp: Nhân loại sử dụng AI hiến pháp, dạy các mô hình của nó sự khác biệt giữa đúng và sai [7]. Cách tiếp cận tiểu thuyết này rất quan trọng vì các mô hình ngôn ngữ ngày càng trở thành nguồn của sự thật và sự thật [7].
* Các tính năng có thể hiểu được: Các nhà nghiên cứu của Anthropic trích xuất các tính năng có thể hiểu được từ các mô hình ngôn ngữ lớn như Claude 3, chuyển chúng thành các khái niệm có thể hiểu của con người [4]. Các tính năng có thể hiểu được này có thể áp dụng cho cùng một khái niệm trong các ngôn ngữ khác nhau và cả hình ảnh và văn bản [4].
* Ánh xạ tâm trí của LLM: Nhân học đã có những bước tiến trong việc giải mã các hoạt động bên trong của các mô hình ngôn ngữ lớn (LLM) bằng cách sử dụng học từ điển để lập bản đồ hàng triệu tính năng trong mô hình AI của họ, Claude Sonnet [2]. Điều này giúp tăng cường sự an toàn và khả năng diễn giải của AI, cung cấp sự hiểu biết sâu sắc hơn về cách AI xử lý thông tin [2]. Bằng cách thao túng các tính năng này, nhân học có thể thay đổi các phản ứng của Claude, chứng minh mối quan hệ nhân quả trực tiếp giữa kích hoạt tế bào thần kinh và đầu ra của mô hình, có thể điều chỉnh hành vi AI để tăng cường an toàn và hiệu suất [2].
* Lý luận nhân loại: Lý luận nhân loại cho rằng sự tồn tại của các nhà quan sát áp đặt các ràng buộc đối với các đặc điểm của vũ trụ [1]. Nguyên tắc nhân học yếu (WAP) cho thấy rằng chúng ta chỉ có thể quan sát những khía cạnh của vũ trụ tương thích với sự tồn tại của chúng ta với tư cách là người quan sát [1]. Nguyên tắc nhân loại mạnh (SAP) đề xuất rằng các luật và hằng số của vũ trụ được cấu trúc để cuộc sống là không thể tránh khỏi [1]. Lý luận nhân loại nhấn mạnh sự thiên vị lựa chọn vốn có trong các quan sát của chúng tôi và cung cấp những hiểu biết sâu sắc về việc tinh chỉnh vũ trụ và các ràng buộc đối với cuộc điều tra khoa học [1].
Trích dẫn:
.
.
[3] https://help.promptitude.io/en/articles/8892919-understanding-anthropic-models-a-simple-guide
.
[5] https:
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitutional-ai
.