Các kỹ thuật được sử dụng bởi các phân loại an toàn để xác định nội dung có hại trong các hệ thống AI

Các kỹ thuật cụ thể nào làm các phân loại an toàn sử dụng để gắn cờ nội dung có hại

Các phân loại an toàn sử dụng một số kỹ thuật để gắn cờ nội dung có hại, đảm bảo rằng các hệ thống AI, đặc biệt là các mô hình ngôn ngữ lớn, có thể xác định và giảm thiểu tài liệu không an toàn hoặc gây khó chịu. Dưới đây là một số kỹ thuật cụ thể được sử dụng:

1. Các mô hình học máy: Bộ phân loại an toàn thường sử dụng các mô hình học máy như Distilbert, có thể được tinh chỉnh trên các bộ dữ liệu có chứa các ví dụ về lời nhắc an toàn và có hại. Các mô hình này học cách phân loại lời nhắc đầu vào là an toàn hoặc có hại dựa trên các mẫu trong dữ liệu đào tạo [3].

2. Những mô hình này giúp xác định và giảm thiểu nội dung có hại bằng cách tiếp xúc với một loạt các cuộc tấn công tiềm năng [1].

3. Bộ lọc nội dung có thể định cấu hình: Các bộ lọc này đánh giá nội dung dựa trên các loại tác hại được xác định trước như ngôn từ thù hận, quấy rối, nội dung rõ ràng về tình dục và nội dung nguy hiểm. Họ gán điểm cho cả xác suất và mức độ nghiêm trọng của nội dung có hại, cho phép các ngưỡng có thể tùy chỉnh để chặn nội dung [2].

4. Học tập ít: Kỹ thuật này cho phép các hệ thống AI thích ứng nhanh chóng với các loại nội dung có hại mới bằng cách tận dụng sự hiểu biết chung về các chủ đề và học tập từ các ví dụ được dán nhãn tối thiểu. Nó cho phép hệ thống phản ứng với các hình thức phát triển của nội dung có hại hiệu quả hơn [5].

5. Các bộ dữ liệu thống nhất cho nội dung nhạy cảm: Các nhà nghiên cứu tạo ra các bộ dữ liệu thống nhất bao gồm một loạt các loại nhạy cảm, bao gồm ngôn ngữ xung đột, thô tục, tài liệu tình dục, nội dung liên quan đến thuốc, tự gây hại và spam. Các bộ dữ liệu này giúp trong các mô hình đào tạo có thể phát hiện nhiều loại nội dung có hại trong một khung duy nhất [4].

6. Mức độ nghiêm trọng và điểm số xác suất: Các phân loại AI sử dụng cả điểm xác suất và mức độ nghiêm trọng để đánh giá tác hại tiềm tàng của nội dung. Điểm xác suất phản ánh khả năng nội dung có hại như thế nào, trong khi điểm nghiêm trọng cho thấy mức độ gây hại. Các điểm số này thường được phân tách thành các cấp độ như không đáng kể, thấp, trung bình và cao [2] [6].

7. Việc xử lý hậu kỳ cho sự công bằng: Các kỹ thuật như xử lý hậu kỳ nhận thức công bằng được sử dụng để phân loại an toàn Debias. Điều này là rất quan trọng bởi vì các phân loại được đào tạo trên dữ liệu mất cân bằng có thể tìm hiểu những thành kiến xã hội, dẫn đến kết quả không công bằng. Các phương pháp gỡ rối giúp đảm bảo rằng các phân loại là công bằng hơn trong các đánh giá của họ [8].

Trích dẫn:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aonon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
.
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2