Τεχνικές που χρησιμοποιούνται από ταξινομητές ασφαλείας για τον εντοπισμό επιβλαβών περιεχομένων στα συστήματα AI

Οι ταξινομητές ασφαλείας χρησιμοποιούν αρκετές τεχνικές για να επισημάνουν επιβλαβές περιεχόμενο, εξασφαλίζοντας ότι τα συστήματα AI, ειδικά μεγάλα γλωσσικά μοντέλα, μπορούν να εντοπίσουν και να μετριάσουν το μη ασφαλές ή προσβλητικό υλικό. Ακολουθούν μερικές από τις συγκεκριμένες τεχνικές που χρησιμοποιούνται:

1. Μοντέλα μηχανικής μάθησης: Οι ταξινομητές ασφαλείας χρησιμοποιούν συχνά μοντέλα μηχανικής μάθησης όπως το Distilbert, τα οποία μπορούν να προσαρμοστούν σε σύνολα δεδομένων που περιέχουν παραδείγματα ασφαλών και επιβλαβών προτροπών. Αυτά τα μοντέλα μαθαίνουν να ταξινομούν τις υποδείξεις εισροών ως ασφαλείς ή επιβλαβείς με βάση τα πρότυπα στα δεδομένα εκπαίδευσης [3].

2. Τα μοντέλα APS (APS): Τα μοντέλα APS εκπαιδεύονται σε διάφορα σύνολα δεδομένων, όπως το Wikipedia Toxic Comments (WTC), το Build-It Break-It-It (BBF), το Bot-Adversarial Dialogue (Bad), οι ανθρωπικές προσπάθειες της κόκκινης ομάδας (κόκκινο) και η Bot-adversarial-dialogue (BAD). Αυτά τα μοντέλα βοηθούν στον εντοπισμό και την άμβλυνση του επιβλαβούς περιεχομένου με την εκδήλωση σε ένα ευρύ φάσμα πιθανών επιθέσεων [1].

3. Διαμορφώσιμα φίλτρα περιεχομένου: Αυτά τα φίλτρα αξιολογούν το περιεχόμενο με βάση προκαθορισμένες κατηγορίες βλάβης, όπως ομιλία μίσους, παρενόχληση, σεξουαλικά σαφές περιεχόμενο και επικίνδυνο περιεχόμενο. Αναθέτουν βαθμολογίες τόσο για την πιθανότητα όσο και για τη σοβαρότητα του περιεχομένου που είναι επιβλαβές, επιτρέποντας προσαρμόσιμα όρια για την παρεμπόδιση του περιεχομένου [2].

4. Λίγο-shot Learning: Αυτή η τεχνική επιτρέπει στα συστήματα AI να προσαρμοστούν γρήγορα σε νέους τύπους επιβλαβών περιεχομένων αξιοποιώντας μια γενική κατανόηση των θεμάτων και τη μάθηση από ελάχιστα επισημασμένα παραδείγματα. Επιτρέπει στο σύστημα να ανταποκρίνεται στις εξελισσόμενες μορφές επιβλαβούς περιεχομένου πιο αποτελεσματικά [5].

5. Ενοποιημένα σύνολα δεδομένων για ευαίσθητο περιεχόμενο: Οι ερευνητές δημιουργούν ενοποιημένα σύνολα δεδομένων που καλύπτουν ένα ευρύ φάσμα ευαίσθητων κατηγοριών, συμπεριλαμβανομένης της αντιφατικής γλώσσας, της βλακείας, του σεξουαλικά σαφούς υλικού, του περιεχομένου που σχετίζεται με τα ναρκωτικά, της αυτοτραυματισμού και της ανεπιθύμητης αλληλογραφίας. Αυτά τα σύνολα δεδομένων βοηθούν σε μοντέλα κατάρτισης που μπορούν να ανιχνεύσουν πολλαπλούς τύπους επιβλαβών περιεχομένων κάτω από ένα μόνο πλαίσιο [4].

6. Βαθμολογίες σοβαρότητας και πιθανότητας: Οι ταξινομητές AI χρησιμοποιούν τόσο βαθμολογίες πιθανότητας όσο και σοβαρότητας για να αξιολογήσουν την πιθανή βλάβη του περιεχομένου. Η βαθμολογία πιθανότητας αντανακλά πόσο πιθανό είναι το περιεχόμενο να είναι επιβλαβές, ενώ η βαθμολογία σοβαρότητας δείχνει το μέγεθος της βλάβης. Αυτές οι βαθμολογίες συχνά διακρίνονται σε επίπεδα όπως αμελητέες, χαμηλές, μεσαίες και υψηλές [2] [6].

7. Αυτό είναι ζωτικής σημασίας επειδή οι ταξινομητές που εκπαιδεύονται σε ανισορροπημένα δεδομένα μπορούν να μάθουν κοινωνικές προκαταλήψεις, οδηγώντας σε άδικα αποτελέσματα. Οι μέθοδοι debiasing συμβάλλουν στην εξασφάλιση ότι οι ταξινομητές είναι πιο δίκαιοι στις αξιολογήσεις τους [8].

Αναφορές:
[1] https://aclanthology.org/2024.woah-1.12.pdf
[2] https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters
[3] https://github.com/aounon/certified-llm-safety
[4] https://arxiv.org/html/2411.19832v2
[5] https://about.fb.com/news/2021/12/metas-new-ai-system-tackles-harmful-content/
[6] https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/harm-categories
[7] https://safety.google/content-safety/
[8] https://arxiv.org/html/2409.13705v2

Ποιες συγκεκριμένες τεχνικές χρησιμοποιούν οι ταξινομητές ασφαλείας για να επισημαίνουν επιβλαβές περιεχόμενο