Πώς εξασφαλίζει η ανθρωπότητα την ασφάλεια των μοντέλων του AI

Ανθρωπογενής εξασφαλίζει την ασφάλεια των μοντέλων του AI μέσω ποικίλων τεχνικών και πολιτικών, συμπεριλαμβανομένης της υπεύθυνης πολιτικής κλιμάκωσης (RSP), των επιπέδων ασφαλείας AI (ASL), των φίλτρων ασφαλείας και των μοντέλων ανίχνευσης [2] [5]. Η ασφάλεια των χρηστών είναι κεντρική για την αποστολή του Anthropic για τη δημιουργία αξιόπιστων, ερμηνευτικών και κατευθυνόμενων συστημάτων AI [5].

Βασικά μέτρα ασφαλείας:
* Η υπεύθυνη πολιτική κλιμάκωσης (RSP) ανθρωπός ανέπτυξε το RSP για τη διαχείριση των κινδύνων που συνδέονται με τα όλο και πιο ικανά μοντέλα AI [2]. Η πολιτική εισάγει ένα πλαίσιο που ονομάζεται AI Safety Levels (ASL), αντλώντας έμπνευση από τα πρότυπα επιπέδου βιοασφάλειας (BSL) της κυβέρνησης (BSL) που χρησιμοποιούνται για τη διαχείριση επικίνδυνων βιολογικών υλικών [2] [7]. Το RSP έχει εγκριθεί επισήμως από το διοικητικό συμβούλιο του Anthropic και οι αλλαγές στην πολιτική πρέπει επίσης να εγκριθούν από το Διοικητικό Συμβούλιο [2].
* Τα επίπεδα ασφάλειας AI (ASL) Το πλαίσιο ASL έχει σχεδιαστεί για να διασφαλίζει ότι τα πρότυπα ασφάλειας, ασφάλειας και επιχειρησιακών προτύπων είναι κατάλληλα για τις δυνατότητες ενός μοντέλου για καταστροφικό κίνδυνο [2] [7]. Τα υψηλότερα επίπεδα ASL απαιτούν αυστηρότερες διαδηλώσεις ασφάλειας [2]. Η πολιτική εξισορροπεί την οικονομική και κοινωνική αξία του AI με την ανάγκη να μετριάσουν τους σοβαρούς κινδύνους, ιδίως τους καταστροφικούς κινδύνους που θα μπορούσαν να προκύψουν από τη σκόπιμη κακή χρήση ή ακούσιες καταστρεπτικές συμπεριφορές από τα ίδια τα μοντέλα [2].
* Τα φίλτρα ασφαλείας το Anthropic χρησιμοποιεί φίλτρα ασφαλείας σε προτροπές, τα οποία ενδέχεται να εμποδίσουν τις απαντήσεις από το μοντέλο όταν τα μοντέλα ανίχνευσης τους σηματοδοτούν το περιεχόμενο ως επιβλαβές [5]. Έχουν επίσης βελτιωμένα φίλτρα ασφαλείας, τα οποία τους επιτρέπουν να αυξήσουν την ευαισθησία των μοντέλων ανίχνευσης [5]. Ο ανθρωπός μπορεί να εφαρμόσει προσωρινά βελτιωμένα φίλτρα ασφαλείας σε χρήστες που παραβιάζουν επανειλημμένα τις πολιτικές τους και να αφαιρέσουν αυτούς τους ελέγχους μετά από μια περίοδο μη ή λίγων παραβιάσεων [5].
* Μοντέλα ανίχνευσης Η ανθρωπότητα χρησιμοποιεί μοντέλα ανίχνευσης που σηματοδοτούν δυνητικά επιβλαβή περιεχόμενο με βάση την πολιτική χρήσης τους [5].

Πρόσθετες διασφαλίσεις:
* Βασικές διασφαλίσεις Αυτές περιλαμβάνουν την αποθήκευση αναγνωριστικών που συνδέονται με κάθε κλήση API για να εντοπίσουν συγκεκριμένο παραβιαζόμενο περιεχόμενο και να αναθέτουν τα αναγνωριστικά στους χρήστες για να παρακολουθούν άτομα που παραβιάζουν την ανθρωπότητα [1]. Εξασφαλίζουν επίσης ότι οι πελάτες κατανοούν τις επιτρεπόμενες χρήσεις και εξετάζουν το ενδεχόμενο να απαιτήσουν από τους πελάτες να εγγραφούν για λογαριασμό στην πλατφόρμα τους πριν χρησιμοποιήσουν το Claude [1].
* Οι ενδιάμεσες διασφαλίσεις οι ανθρωπογενείς δημιουργούν πλαίσια προσαρμογής που περιορίζουν τις αλληλεπιδράσεις τελικών χρηστών με το CLAUDE σε ένα περιορισμένο σύνολο προτροπών ή επιτρέπουν μόνο στον Claude να αναθεωρήσει ένα συγκεκριμένο σώμα γνώσης, μειώνοντας την ικανότητα των χρηστών να συμμετέχουν σε παραβίαση της συμπεριφοράς [1]. Επίσης, επιτρέπουν τα πρόσθετα φίλτρα ασφαλείας, τα οποία είναι ελεύθερα εργαλεία μετριοπάθειας σε πραγματικό χρόνο που κατασκευάζονται από την ανθρωπότητα για την ανίχνευση δυνητικά επιβλαβών προτροπών και τη διαχείριση δράσεων σε πραγματικό χρόνο για τη μείωση της βλάβης [1].
* Οι προχωρημένες διασφαλίσεις που εκτελούν ένα API μετριοπάθειας εναντίον όλων των προτροπών του τελικού χρήστη πριν αποσταλούν στο Claude εξασφαλίζουν ότι δεν είναι επιβλαβείς [1].
* Οι ολοκληρωμένες διασφαλίσεις ανθρωπογενείς δημιουργεί ένα εσωτερικό σύστημα ανθρώπινης αναθεώρησης για να σηματοδοτήσει τις υποδείξεις που χαρακτηρίζονται από το Claude ή ένα API μετριοπάθειας ως επιβλαβές, ώστε να μπορούν να παρεμβαίνουν για να περιορίσουν ή να αφαιρέσουν τους χρήστες με υψηλά ποσοστά παραβίασης [1].

Η ανθρωπότητα δεσμεύεται επίσης για την αξιοπιστία και την ερμηνεία των συστημάτων του AI, που επιτυγχάνεται μέσω αυστηρής έρευνας και της εφαρμογής προηγμένων τεχνικών ασφαλείας [2]. Μια σημαντική ανακάλυψη στην ερμηνεία είναι η χρήση του Anthropic από τους αραιούς αυτοεξοιχτές για την «μονοζεντική εξαγωγή χαρακτηριστικών», η οποία απλοποιεί τα σύνθετα νευρωνικά δίκτυα σε κατανοητά συστατικά [2].

Αναφορές:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthroper.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-proach-to-usser-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthroping-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-caling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.anthroper.com/news/core-views-on-ai-safety

Απάντηση από την αμηχανία: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output