Mô hình nào cung cấp các biện pháp bảo vệ mạnh mẽ hơn đối với sự leo thang dựa trên công cụ hoặc thực thi mã

Các biện pháp bảo vệ mạnh nhất đối với các lỗ hổng thực thi đặc quyền dựa trên công cụ hiện tại đến từ các thiết kế tác nhân bảo mật tiên tiến trong các khung mô hình ngôn ngữ lớn (LLM), đặc biệt là các nguyên tắc sử dụng kiến trúc hai tác nhân và tính toàn vẹn dòng nhanh (PFI). Các mô hình này tự phân biệt bằng cách cô lập xử lý dữ liệu đáng tin cậy và không đáng tin cậy, thực thi phân tách đặc quyền nghiêm ngặt và thực hiện các lan can bảo vệ bảo vệ xác định để ngăn chặn sự truy cập tài nguyên nhanh chóng và truy cập tài nguyên trái phép.

Nguyên tắc bảo vệ cốt lõi trong các mô hình đại lý LLM an toàn

Một bước đột phá quan trọng trong việc giảm thiểu rủi ro leo thang ở các tác nhân LLM là sự phân chia thành hai tác nhân giao tiếp: một tác nhân đáng tin cậy (với các đặc quyền cao) xử lý dữ liệu nhạy cảm hoặc đáng tin cậy và một tác nhân không tin tưởng (với các đặc quyền bị hạn chế) xử lý có khả năng không an toàn hoặc bị tấn công. Sự cô lập kiến trúc này giới hạn phạm vi của những gì đầu vào độc hại có thể tác động và thực thi nguyên tắc đặc quyền ít nhất bằng cách đảm bảo rằng các bộ phận không tin tưởng không thể thực hiện các hoạt động có thể leo thang quyền truy cập của họ hoặc thực thi mã tùy ý.

Khung tính toàn vẹn dòng nhanh (PFI)

PFI là một khung nâng cao được thiết kế để ngăn chặn sự leo thang đặc quyền bằng cách quản lý một cách an toàn luồng lời nhắc và dữ liệu plugin trong môi trường tác nhân LLM. Nó cung cấp một quy trình làm việc trong đó:

- Tác nhân đáng tin cậy nhận được lời nhắc của người dùng và quy trình dữ liệu đáng tin cậy.
- Dữ liệu không được phát hiện từ các plugin hoặc các nguồn bên ngoài được giảm tải cho tác nhân không tin cậy.
- Tác nhân không tin cậy đã hạn chế các đặc quyền và truy cập hạn chế vào các công cụ hoặc hoạt động nhạy cảm.
- Giao tiếp giữa các tác nhân sử dụng các tài liệu tham khảo dữ liệu được mã hóa thay vì nội dung không đáng tin cậy, ngăn chặn việc tiêm độc hại vào bối cảnh của tác nhân đáng tin cậy.
- Bảo vệ giám sát luồng dữ liệu không được kiểm soát và hướng dẫn kiểm soát, đưa ra cảnh báo nếu các hoạt động không an toàn hoặc các nỗ lực leo thang đặc quyền trái phép được phát hiện, do đó liên quan đến sự đồng ý của người dùng rõ ràng hoặc cơ chế chặn tự động.

Các bảo vệ, dataguard và ctrlguard này, có tính quyết định và tránh các tích cực hoặc bỏ lỡ sai bằng cách thực thi các chính sách luồng dữ liệu và kiểm soát dựa trên việc theo dõi nghiêm ngặt mức độ đặc quyền và độ tin cậy dữ liệu. Kiến trúc này làm giảm đáng kể rủi ro khi thực hiện các lệnh hoặc mã độc hại trong môi trường tác nhân.

Hiệu quả so sánh của PFI so với các phòng thủ trước đó

Trước các khung như PFI, các biện pháp phòng thủ phổ biến đã phụ thuộc rất nhiều vào việc tinh chỉnh mô hình và học tập trong bối cảnh để ngăn chặn việc tạo ra lệnh hoặc thực thi lệnh nhắc nhở có hại. Mặc dù hữu ích, các phương pháp xác suất này dễ bị bỏ qua. Các cách tiếp cận khác được giới thiệu các phân vùng đáng tin cậy/không đáng tin cậy nhưng thường thiếu các lan can bảo vệ xác định, dẫn đến bảo đảm bảo mật không đầy đủ.

PFI tăng cường các phòng thủ này bằng cách kết hợp:

- Phân loại tin cậy các nguồn dữ liệu để xác định nội dung không đáng tin cậy.
- Tách đặc quyền nghiêm ngặt được thi hành thông qua nhiều tác nhân chuyển hướng.
- Thực thi chính sách dòng nhanh với các cơ chế bảo vệ chính thức.
- Cảnh báo thời gian thực và sự chấp thuận của người dùng đối với các luồng đáng ngờ.

Kết quả từ các bài kiểm tra điểm chuẩn cho thấy PFI làm giảm đáng kể sự leo thang đặc quyền và tỷ lệ thành công tấn công kịp thời xuống gần bằng không, vượt xa các hệ thống trước đó như React Agent, cô lập và F-Secure LLM, trong khi duy trì khả năng sử dụng hoạt động cao hơn.

Làm thế nào các biện pháp bảo vệ này giảm thiểu rủi ro thực thi mã

Sự leo thang dựa trên công cụ thường phát sinh khi kẻ tấn công đầu vào thủ thuật một tác nhân LLM để ban hành các lệnh shell trái phép hoặc thực thi mã tùy ý. Bằng cách cô lập các đầu vào không tin cậy trong môi trường ưu tiên thấp và sàng lọc và kiểm soát dữ liệu nghiêm ngặt, các mô hình này ngăn chặn đầu vào của kẻ tấn công làm hỏng bối cảnh thực thi của tác nhân đáng tin cậy hoặc nâng cao các đặc quyền.

Hơn nữa, vì các tác nhân không tin cậy có các plugin hạn chế và không có quyền truy cập vào các lệnh hệ thống quan trọng hoặc API nhạy cảm, bất kỳ nỗ lực độc hại nào để thực thi mã hoặc đặc quyền leo thang không thành công hoặc được gắn cờ sớm. Tác nhân đáng tin cậy không bao giờ trực tiếp xử lý dữ liệu thô không tin tưởng nhưng chỉ hoạt động với các proxy hoặc tài liệu tham khảo được vệ sinh không thể nhúng các hướng dẫn có hại.

Bối cảnh bổ sung về sự leo thang đặc quyền vượt ra ngoài LLMS

Mặc dù trọng tâm ở đây là các mô hình dựa trên LLM, nhưng điều đáng chú ý là sự leo thang đặc quyền là một vấn đề được nghiên cứu kỹ lưỡng trong bảo mật CNTT truyền thống, nơi những kẻ tấn công khai thác các lỗ hổng phần mềm để có được quyền truy cập hoặc kiểm soát trái phép. Các chiến lược giảm thiểu phổ biến bao gồm:

- Hộp cát và thùng chứa cấp hệ điều hành nghiêm ngặt.
- Kiểm soát truy cập đặc quyền ít nhất và quyền dựa trên vai trò.
- Đánh giá mã toàn diện và thực hành mã hóa an toàn.
- Sử dụng các hệ thống phòng ngừa xâm nhập (IPS) và các công cụ tự động để phát hiện và chặn.

Các nguyên tắc này bổ sung và đôi khi là nền tảng triển khai mô hình an toàn, đặc biệt là khi LLM được tích hợp với cơ sở hạ tầng hệ thống rộng hơn.

***

Tóm lại, các mô hình thực hiện tính toàn vẹn của luồng nhanh với các kiến trúc tác nhân kép và các lan can bảo vệ xác định cung cấp các biện pháp bảo vệ đương đại mạnh nhất chống lại sự leo thang đặc quyền dựa trên công cụ và thực hiện mã trái phép trong môi trường LLM. Cách tiếp cận của họ để cô lập các đầu vào không đáng tin cậy, thực thi các đặc quyền ít nhất, và giám sát dữ liệu nghiêm ngặt và các luồng kiểm soát đạt được giảm thiểu gần như hoàn toàn của các cuộc tấn công tiêm và leo thang kịp thời, vượt qua các biện pháp phòng thủ cách ly dựa trên ML hoặc tác nhân trước đó.