มานุษยวิทยาช่วยให้มั่นใจในความปลอดภัยของโมเดล AI ได้อย่างไร

มานุษยวิทยารับรองความปลอดภัยของโมเดล AI ผ่านเทคนิคและนโยบายที่หลากหลายรวมถึงนโยบายการปรับขนาดที่รับผิดชอบ (RSP) ระดับความปลอดภัย AI (ASL) ตัวกรองความปลอดภัยและรูปแบบการตรวจจับ [2] [5] ความปลอดภัยของผู้ใช้เป็นศูนย์กลางของภารกิจของมานุษยวิทยาในการสร้างระบบ AI ที่เชื่อถือได้ตีความได้และนำพาได้ [5]

มาตรการความปลอดภัยที่สำคัญ:
* มานุษยวิทยาการปรับขนาดที่รับผิดชอบ (RSP) พัฒนา RSP เพื่อจัดการความเสี่ยงที่เชื่อมโยงกับโมเดล AI ที่มีความสามารถมากขึ้น [2] นโยบายแนะนำกรอบการทำงานที่เรียกว่าระดับความปลอดภัย AI (ASL) โดยใช้แรงบันดาลใจจากมาตรฐานความปลอดภัยทางชีวภาพของรัฐบาลสหรัฐฯ (BSL) ที่ใช้สำหรับการจัดการวัสดุชีวภาพอันตราย [2] [7] RSP ได้รับการอนุมัติอย่างเป็นทางการจากคณะกรรมการของมานุษยวิทยาและการเปลี่ยนแปลงใด ๆ ในนโยบายจะต้องได้รับการอนุมัติจากคณะกรรมการ [2]
* ระดับความปลอดภัย AI (ASL) กรอบ ASL ได้รับการออกแบบมาเพื่อให้แน่ใจว่าความปลอดภัยความปลอดภัยและมาตรฐานการปฏิบัติงานมีความเหมาะสมกับศักยภาพของแบบจำลองสำหรับความเสี่ยงภัยพิบัติ [2] [7] ระดับ ASL ที่สูงขึ้นต้องการการสาธิตความปลอดภัยที่เข้มงวดมากขึ้น [2] นโยบายนี้สร้างความสมดุลระหว่างคุณค่าทางเศรษฐกิจและสังคมของ AI ด้วยความจำเป็นที่จะต้องลดความเสี่ยงที่รุนแรงโดยเฉพาะอย่างยิ่งความเสี่ยงที่หายนะที่อาจเกิดขึ้นจากการใช้พฤติกรรมการทำลายล้างในทางที่ผิดหรือโดยไม่ตั้งใจโดยแบบจำลองของตัวเอง [2]
* ตัวกรองความปลอดภัยมานุษยวิทยาใช้ตัวกรองความปลอดภัยในการแจ้งเตือนซึ่งอาจบล็อกการตอบสนองจากแบบจำลองเมื่อรูปแบบการตรวจจับของพวกเขาตั้งค่าสถานะเนื้อหาเป็นอันตราย [5] พวกเขายังมีตัวกรองความปลอดภัยที่เพิ่มขึ้นซึ่งช่วยให้พวกเขาเพิ่มความไวของแบบจำลองการตรวจจับ [5] มานุษยวิทยาอาจใช้ตัวกรองความปลอดภัยที่เพิ่มขึ้นชั่วคราวกับผู้ใช้ที่ละเมิดนโยบายของพวกเขาซ้ำ ๆ และลบการควบคุมเหล่านี้หลังจากระยะเวลาไม่น้อยหรือน้อย [5]
* แบบจำลองการตรวจจับมานุษยวิทยาใช้แบบจำลองการตรวจจับที่ตั้งค่าสถานะเนื้อหาที่อาจเป็นอันตรายตามนโยบายการใช้งาน [5]

การป้องกันเพิ่มเติม:
* การป้องกันพื้นฐานเหล่านี้รวมถึงการจัดเก็บรหัสที่เชื่อมโยงกับการเรียก API แต่ละครั้งเพื่อระบุเนื้อหาการละเมิดที่เฉพาะเจาะจงและการกำหนดรหัสให้กับผู้ใช้เพื่อติดตามบุคคลที่ละเมิด AUP ของมานุษยวิทยา [1] พวกเขายังมั่นใจว่าลูกค้าเข้าใจการใช้งานที่ได้รับอนุญาตและพิจารณาให้ลูกค้าสมัครใช้งานบัญชีบนแพลตฟอร์มของพวกเขาก่อนที่จะใช้ Claude [1]
* การป้องกันระดับกลางมานุษยวิทยาสร้างกรอบการปรับแต่งที่ จำกัด การโต้ตอบของผู้ใช้ปลายทางกับ Claude ในชุดของการแจ้งเตือนที่ จำกัด หรืออนุญาตให้ Claude ตรวจสอบคลังความรู้เฉพาะลดความสามารถของผู้ใช้ที่จะมีส่วนร่วมในพฤติกรรมการละเมิด [1] พวกเขายังเปิดใช้งานตัวกรองความปลอดภัยเพิ่มเติมซึ่งเป็นเครื่องมือการกลั่นกรองแบบเรียลไทม์ฟรีที่สร้างโดยมานุษยวิทยาเพื่อช่วยตรวจจับการแจ้งเตือนที่อาจเป็นอันตรายและการจัดการการกระทำแบบเรียลไทม์เพื่อลดอันตราย [1]
* การป้องกันขั้นสูงที่ใช้ API การกลั่นกรองกับการแจ้งเตือนผู้ใช้ทั้งหมดก่อนที่พวกเขาจะถูกส่งไปยัง Claude เพื่อให้แน่ใจว่าพวกเขาจะไม่เป็นอันตราย [1]
* การป้องกันที่ครอบคลุมมานุษยวิทยาตั้งค่าระบบการตรวจสอบมนุษย์ภายในเพื่อให้สถานะการแจ้งเตือนที่ถูกทำเครื่องหมายโดย Claude หรือ API การกลั่นกรองว่าเป็นอันตรายดังนั้นพวกเขาจึงสามารถแทรกแซงเพื่อ จำกัด หรือลบผู้ใช้ที่มีอัตราการละเมิดสูง [1]

มานุษยวิทยายังมุ่งมั่นต่อความน่าเชื่อถือและความสามารถในการตีความของระบบ AI ได้ผ่านการวิจัยอย่างเข้มงวดและการประยุกต์ใช้เทคนิคความปลอดภัยขั้นสูง [2] ความก้าวหน้าที่สำคัญในการตีความคือการใช้ Autoencoders แบบเบาบางของมานุษยวิทยาสำหรับ 'การแยกคุณลักษณะ monosemantic' ซึ่งช่วยลดความซับซ้อนของเครือข่ายประสาทที่ซับซ้อนให้เป็นส่วนประกอบที่เข้าใจได้ [2]

การอ้างอิง:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=E6_X0ZOXVVI
[10] https://www.anthropic.com/news/core-views-on-ai-safety

คำตอบจาก Perplexity: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output
-
-
-