Anthropic χρησιμοποιεί συνταγματική κατάρτιση AI και αβλαβής για να εξασφαλίσει ότι τα μοντέλα του AI είναι χρήσιμα, ειλικρινά και αβλαβείς [3]. Αυτή η προσέγγιση στοχεύει στη μείωση του κινδύνου μάρκας και διασφαλίζει ότι το σύστημα AI είναι αξιόπιστο, ερμηνευτικό και κατευθυνόμενο [3]. Τα μοντέλα της Anthropic έχουν σχεδιαστεί για να επεξεργάζονται μεγάλα ποσά δεδομένων κειμένου, κατανόηση και δημιουργία κώδικα, καθιστώντας τα χρήσιμα για εργασίες ανάπτυξης λογισμικού και άλλες εφαρμογές όπως η εξυπηρέτηση πελατών και η νομική κωδικοποίηση [3].
Οι βασικές διαφορές στην προσέγγιση του Anthropic στη συλλογιστική, σε σύγκριση με τα παραδοσιακά μεγάλα γλωσσικά μοντέλα, περιλαμβάνουν:
* Εστίαση στην ασφάλεια του AI: Το Anthropic είναι αφιερωμένο στη δημιουργία αξιόπιστων και ερμηνευτικών συστημάτων AI που ευθυγραμμίζονται με τις ανθρώπινες αξίες και τα πρότυπα ασφαλείας [2]. Η εταιρεία επικεντρώνεται στην κατανόηση και την άμβλυνση των κινδύνων που συνδέονται με την AI μέσω της έρευνας στη φυσική επεξεργασία, στην ανθρώπινη ανατροφοδότηση και στην ερμηνεία [2].
* Η συνταγματική AI: Ανθρωπότητα απασχολεί το συνταγματικό AI, διδάσκοντας τα μοντέλα της τη διαφορά μεταξύ του σωστού και του λάθους [7]. Αυτή η νέα προσέγγιση είναι ζωτικής σημασίας, καθώς τα γλωσσικά μοντέλα γίνονται ολοένα και περισσότερο πηγές γεγονότων και αλήθειας [7].
* Ερμηνευτικά χαρακτηριστικά: Οι ερευνητές της Anthropic εξάγουν ερμηνεία χαρακτηριστικά από μεγάλα γλωσσικά μοντέλα όπως το Claude 3, μεταφράζοντάς τα σε ενημέρωσεις ανθρώπινου εννοιολογητού [4]. Αυτά τα ερμηνευτικά χαρακτηριστικά μπορούν να ισχύουν για την ίδια έννοια σε διαφορετικές γλώσσες και τόσο σε εικόνες όσο και σε κείμενο [4].
* Χαρτογράφηση του μυαλού του LLMS: Το Anthropic έχει κάνει τα βήματα στην αποκρυπτογράφηση των εσωτερικών λειτουργιών μεγάλων γλωσσικών μοντέλων (LLMS) χρησιμοποιώντας τη μάθηση λεξικού για να χαρτογραφήσει εκατομμύρια χαρακτηριστικά εντός του μοντέλου AI, Claude Sonnet [2]. Αυτό ενισχύει την ασφάλεια και την ερμηνεία του AI, προσφέροντας μια βαθύτερη κατανόηση του τρόπου με τον οποίο η AI επεξεργάζεται τις πληροφορίες [2]. Με το χειρισμό αυτών των χαρακτηριστικών, ο ανθρωπός μπορεί να μεταβάλει τις αποκρίσεις του Claude, αποδεικνύοντας μια άμεση αιτιώδη σχέση μεταξύ των ενεργοποιήσεων των νευρώνων και της παραγωγής του μοντέλου, η οποία μπορεί να τελειοποιήσει τη συμπεριφορά του ΑΙ για την ενίσχυση της ασφάλειας και της απόδοσης [2].
* Ανθρωπογενής λογική: Η ανθρωπότητα θεωρεί ότι η ύπαρξη παρατηρητών επιβάλλει περιορισμούς στα χαρακτηριστικά του σύμπαντος [1]. Η αδύναμη ανθρωπική αρχή (WAP) υποδηλώνει ότι μπορούμε να παρατηρήσουμε μόνο εκείνες τις πτυχές του σύμπαντος που είναι συμβατές με την ύπαρξή μας ως παρατηρητές [1]. Η ισχυρή ανθρωπική αρχή (SAP) προτείνει ότι οι νόμοι και οι σταθερές του σύμπαντος είναι δομημένες έτσι ώστε η ζωή να είναι αναπόφευκτη [1]. Η ανθρωπική συλλογιστική υπογραμμίζει την εγγενή προκατάληψη επιλογής στις παρατηρήσεις μας και παρέχει πληροφορίες για την τελειοποίηση του σύμπαντος και τους περιορισμούς στην επιστημονική έρευνα [1].
Αναφορές:
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-anthropic-reasoning-in-understing-the-universe/
[2] https://theaitrack.com/anthropic-mapping-the-mind-of-large-language-models/
[3] https://help.promptitude.io/en/articles/8892919-understing-anthropic-models-a-simple-guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingentropy.com/in-favor-of-anthropic-reasoning/
[6] https://www.anthroper.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitutional-ai
[8] https://www.activeloop.ai/resources/how-to-compare-large-language-models-gpt-4-3-5-vs-anthropic-claude-vs-cohere/