Ανθρωπογενής εξασφαλίζει την ασφάλεια και την αξιοπιστία του ΑΙ μέσω διαφόρων μέτρων, συμπεριλαμβανομένων των δοκιμών άγχους, των πρωτοκόλλων ασφαλείας και της υπεύθυνης πολιτικής κλιμάκωσης [1]. Χρησιμοποιούν επίπεδα ασφαλείας AI (ASL), που διαμορφώνονται μετά από επίπεδα βιοασφάλειας, για να προσδιορίσουν τα μέτρα ασφαλείας που βασίζονται σε πιθανούς κινδύνους [2] [3].
Βασικά συστατικά της προσέγγισης ασφάλειας του Anthropic:
* Η υπεύθυνη πολιτική κλιμάκωσης (RSP) ανθρωπός χρησιμοποιεί ένα σύστημα ασφαλείας AI (ASL) [3]. Εάν ένα σύστημα AI αποδεικνύει ορισμένες επικίνδυνες δυνατότητες, ο Anthropic δεσμεύεται να μην το αναπτύξει ή να εκπαιδεύσει πιο ισχυρά μοντέλα μέχρι να εφαρμοστούν συγκεκριμένες διασφαλίσεις [3].
* Συχνές δοκιμές ανθρωπογενείς δοκιμές Συχνά για επικίνδυνες δυνατότητες σε τακτά χρονικά διαστήματα για να διασφαλιστεί ότι οι επικίνδυνες δυνατότητες δεν δημιουργούνται εν αγνοία τους [3].
* Οι αξιολογήσεις μοντέλων που έχουν σχεδιαστεί για την ανίχνευση επικίνδυνων δυνατοτήτων, αυτές οι αξιολογήσεις λειτουργούν ως συντηρητικά "προειδοποιητικά σημάδια" για να αποφευχθεί τυχαία η υπέρβαση των κρίσιμων κατωφλίων ασφαλείας [2]. Οι αξιολογήσεις μπορεί να αποτελούνται από πολλαπλά στάδια δυσκολίας, όπου τα μεταγενέστερα στάδια εκτελούνται μόνο εάν οι προηγούμενες αξιολογήσεις παρουσιάζουν προειδοποιητικά σημάδια [2].
* Διαδικαστικές δεσμεύσεις Οι ASLs καθορίζουν τι πρέπει να ισχύει για τα μοντέλα και την ασφάλεια του Anthropic για να επιτρέψει την ασφαλή κατάρτιση και ανάπτυξη [2].
* Παρακολούθηση και καταγραφή: Για την εσωτερική χρήση, οι παραγόμενες εξόδους και οι αντίστοιχες εισόδους καταγράφονται και διατηρούνται για τουλάχιστον 30 ημέρες. Αυτά τα αρχεία καταγραφής παρακολουθούνται για μη φυσιολογική δραστηριότητα και οι συναγερμοί λαμβάνονται σοβαρά υπόψη και ανταποκρίνονται αμέσως [2].
* Κλιμακωμένη πρόσβαση: Σε περιορισμένες περιπτώσεις, τα μοντέλα με δυνατότητες που σχετίζονται με την καταστροφική βλάβη μπορεί να είναι διαθέσιμα σε μια επιλεγμένη ομάδα χρηστών που έχουν ελεγχθεί με μια νόμιμη και ευεργετική περίπτωση χρήσης που δεν μπορεί να διαχωριστεί από επικίνδυνες δυνατότητες, υπό την προϋπόθεση ότι η πρόσβαση μπορεί να χορηγηθεί με ασφάλεια και με επαρκή επίβλεψη [2].
* Η ευπάθεια και η αποκάλυψη των περιστατικών: Ανθρωπογενή εμπλέκονται σε μια διαδικασία ευπάθειας και αποκάλυψης περιστατικών με άλλα εργαστήρια (με την επιφύλαξη της ασφάλειας ή των νομικών περιορισμών) που καλύπτουν τα αποτελέσματα της κόκκινης ομάδας, τις απειλές της εθνικής ασφάλειας και τις αυτόνομες απειλές αντιγραφής [2].
* Ταχεία ανταπόκριση στις ευπάθειες του μοντέλου: Όταν ενημερώνεται για μια πρόσφατα ανακαλυφθείσα ευπάθεια μοντέλου που επιτρέπει την καταστροφική βλάβη, ο ανθρωπός δεσμεύεται να τον μετριάσει ή να το επιδιορθώσει [2].
* Έλεγχος δύο μερών: Εφαρμόζεται σε όλα τα συστήματα που εμπλέκονται στην ανάπτυξη, την κατάρτιση, τη φιλοξενία και την ανάπτυξη των μοντέλων AI Frontier, αυτό περιλαμβάνει ένα σχέδιο συστήματος όπου κανένα άτομο δεν έχει επίμονη πρόσβαση σε περιβαλλόμενα περιβάλλοντα που είναι κρίσιμα για την παραγωγή. Αντ 'αυτού, πρέπει να ζητήσουν την πρόσβαση με περιορισμένη χρονική περίοδο από έναν συνεργάτη με δικαιολογία για επιχειρήσεις [8].
* Χαρακτηριστικά ασφαλείας των χρηστών Περιλαμβάνουν μοντέλα ανίχνευσης για την επισήμανση δυνητικά επιβλαβή περιεχόμενο, φίλτρα ασφαλείας σε προτροπές και βελτιωμένα φίλτρα ασφαλείας για χρήστες που παραβιάζουν επανειλημμένα τις πολιτικές [7].
Το Anthropic χρησιμοποιεί επίσης μοντέλα ανίχνευσης για να επισημάνει τα δυνητικά επιβλαβή περιεχόμενα και φίλτρα ασφαλείας στις προτροπές [7]. Επενδύουν ενεργά και πειραματίζονται με πρόσθετα χαρακτηριστικά ασφαλείας και παρέχουν εργαλεία για την άμβλυνση της βλάβης και ενθαρρύνουν τους χρήστες να παρέχουν σχόλια σχετικά με αυτά τα μέτρα [7].
Αναφορές:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1ADF000C8F675958C2EE23805D91AADE1CD4613/RESPONSIBLE-SCALING-Policy.pdf
[3] https://www.anthroper.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charch-in-ai-safety-and-ferformance/
[5] https://www.anthroper.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-probachto-usser-safety
[8] https://www.anthroper.com/news/frontier-model-security