Πώς λειτουργεί το χαρακτηριστικό της συρόμενης κλίμακας στο μοντέλο του Anthropic

Anthropic απασχολεί μια "υπεύθυνη πολιτική κλιμάκωσης" (RSP) για τη διαχείριση των κινδύνων που συνδέονται με όλο και πιο ικανά μοντέλα AI [5]. Αυτή η πολιτική χρησιμοποιεί ένα πλαίσιο που ονομάζεται AI Safety Levels (ASL), αντλώντας έμπνευση από τα πρότυπα επιπέδου βιοασφάλειας της κυβέρνησης των ΗΠΑ για τη διαχείριση επικίνδυνων βιολογικών υλικών [5]. Το πλαίσιο ASL έχει σχεδιαστεί για την εφαρμογή προτύπων ασφάλειας, ασφάλειας και λειτουργίας που ταιριάζουν με το δυναμικό ενός μοντέλου για καταστροφικό κίνδυνο, με υψηλότερα επίπεδα ASL που απαιτούν αυστηρότερες επιδείξεις ασφάλειας [5].

Τα καλύτερα τρέχοντα μοντέλα της Anthropic βρίσκονται στο ASL-2 [4]. Η εταιρεία ορίζει τα μέτρα συγκράτησης και ανάπτυξης για την ASL-2 και την ASL-3 και δεσμεύεται να καθορίσει τα μέτρα ασφαλείας ASL-4 πριν από την εκπαίδευση μοντέλων ASL-3 [4]. Το ASL-1 αναφέρεται σε συστήματα που δεν δημιουργούν ουσιαστικό καταστροφικό κίνδυνο [5].

Το Anthropic επενδύεται επίσης σε μηχανιστική ερμηνεία, η οποία περιλαμβάνει την ανίχνευση και την κατανόηση των εσωτερικών λειτουργιών των συστημάτων AI, ιδιαίτερα των μοντέλων βαθιάς μάθησης, σε μια προσπάθεια να καταστεί η συμπεριφορά AI πιο προβλέψιμη και κατανοητή [5].

Αναφορές:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices- parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-caling-monosemantication
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-understing-anthropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-responsible-caling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-out-exponsible-caling-policy

Απάντηση από την αμηχανία: https://www.perplexity.ai/search/how-does-the-sliding-scale-fea-4flssmynqgibu47rvk8b7g?utm_source=copy_output