มานุษยวิทยารับรองความปลอดภัยและความน่าเชื่อถือของแบบจำลอง AI ไฮบริดได้อย่างไร

มานุษยวิทยาช่วยให้มั่นใจถึงความปลอดภัยและความน่าเชื่อถือของ AI ผ่านมาตรการหลายอย่างรวมถึงการทดสอบความเครียดโปรโตคอลความปลอดภัยและนโยบายการปรับขนาดที่รับผิดชอบ [1] พวกเขาใช้ระดับความปลอดภัย AI (ASL) แบบจำลองตามระดับความปลอดภัยทางชีวภาพเพื่อกำหนดมาตรการความปลอดภัยตามความเสี่ยงที่อาจเกิดขึ้น [2] [3]

ส่วนประกอบสำคัญของวิธีความปลอดภัยของมานุษยวิทยา:
* นโยบายการปรับขนาดที่รับผิดชอบ (RSP) มานุษยวิทยาใช้ระบบระดับความปลอดภัย AI (ASL) [3] หากระบบ AI แสดงให้เห็นถึงความสามารถที่เป็นอันตรายบางอย่างมานุษยวิทยามุ่งมั่นที่จะไม่ปรับใช้หรือฝึกอบรมโมเดลที่มีประสิทธิภาพมากขึ้นจนกว่าจะมีการป้องกันเฉพาะ [3]
* การทดสอบมานุษยวิทยาการทดสอบบ่อยครั้งบ่อยครั้งสำหรับความสามารถที่เป็นอันตรายในช่วงเวลาปกติเพื่อให้แน่ใจว่าความสามารถที่เป็นอันตรายไม่ได้ถูกสร้างขึ้นโดยไม่รู้ตัว [3]
* การประเมินแบบจำลองที่ออกแบบมาเพื่อตรวจจับความสามารถที่เป็นอันตรายการประเมินเหล่านี้ทำหน้าที่เป็น "สัญญาณเตือน" แบบอนุรักษ์นิยมเพื่อป้องกันไม่ให้เกินเกณฑ์ความปลอดภัยที่สำคัญโดยไม่ตั้งใจ [2] การประเมินอาจประกอบด้วยขั้นตอนความยากหลายขั้นตอนซึ่งขั้นตอนต่อมาจะทำงานได้ก็ต่อเมื่อการประเมินก่อนหน้านี้แสดงสัญญาณเตือน [2]
* ความมุ่งมั่นขั้นตอน ASLs ระบุสิ่งที่ต้องเป็นจริงของแบบจำลองและความปลอดภัยของมานุษยวิทยาเพื่อให้การฝึกอบรมและการปรับใช้อย่างปลอดภัย [2]
* การตรวจสอบและการบันทึก: สำหรับการใช้งานภายในเอาต์พุตที่สร้างขึ้นและอินพุตที่สอดคล้องกันจะถูกบันทึกและเก็บรักษาไว้อย่างน้อย 30 วัน บันทึกเหล่านี้จะถูกตรวจสอบสำหรับกิจกรรมที่ผิดปกติและการเตือนภัยจะถูกดำเนินการอย่างจริงจังและตอบสนองต่อทันที [2]
* การเข้าถึงระดับ: ในกรณีที่ จำกัด โมเดลที่มีความสามารถที่เกี่ยวข้องกับอันตรายจากหายนะอาจมีให้สำหรับกลุ่มผู้ใช้ที่ได้รับการตรวจสอบด้วยกรณีการใช้งานที่ถูกต้องตามกฎหมายและเป็นประโยชน์ซึ่งไม่สามารถแยกออกจากความสามารถที่เป็นอันตรายได้ การกำกับดูแลที่เพียงพอ [2]
* ช่องโหว่และการเปิดเผยเหตุการณ์: มานุษยวิทยามีส่วนร่วมในกระบวนการเปิดเผยช่องโหว่และการเปิดเผยเหตุการณ์กับห้องปฏิบัติการอื่น ๆ (ภายใต้ข้อ จำกัด ด้านความปลอดภัยหรือทางกฎหมาย) ที่ครอบคลุมผลการประชุมสีแดงภัยคุกคามความมั่นคงแห่งชาติและภัยคุกคามการจำลองแบบอิสระ [2]
* การตอบสนองอย่างรวดเร็วต่อช่องโหว่ของแบบจำลอง: เมื่อได้รับแจ้งถึงช่องโหว่ของรุ่นที่ค้นพบใหม่ซึ่งทำให้เกิดอันตรายจากภัยพิบัติมานุษยวิทยาจะลดหรือแก้ไขหรือแก้ไขได้ทันที [2]
* การควบคุมสองพรรค: นำไปใช้กับทุกระบบที่เกี่ยวข้องในการพัฒนาการฝึกอบรมโฮสติ้งและการปรับใช้โมเดล AI ชายแดนซึ่งเกี่ยวข้องกับการออกแบบระบบที่ไม่มีบุคคลเดียวที่สามารถเข้าถึงสภาพแวดล้อมที่สำคัญในการผลิตได้อย่างต่อเนื่อง แต่พวกเขาจะต้องขอการเข้าถึงเวลา จำกัด จากเพื่อนร่วมงานที่มีเหตุผลทางธุรกิจ [8]
* คุณสมบัติด้านความปลอดภัยของผู้ใช้เหล่านี้รวมถึงรูปแบบการตรวจจับเพื่อตั้งค่าสถานะเนื้อหาที่อาจเป็นอันตรายตัวกรองความปลอดภัยในการแจ้งเตือนและตัวกรองความปลอดภัยที่เพิ่มขึ้นสำหรับผู้ใช้ที่ละเมิดนโยบายซ้ำ ๆ [7]

มานุษยวิทยายังใช้แบบจำลองการตรวจจับเพื่อตั้งค่าสถานะเนื้อหาที่เป็นอันตรายและตัวกรองความปลอดภัยที่อาจเกิดขึ้นในการแจ้งเตือน [7] พวกเขากำลังลงทุนอย่างแข็งขันและทดลองใช้คุณสมบัติด้านความปลอดภัยเพิ่มเติมและจัดหาเครื่องมือเพื่อลดอันตรายและสนับสนุนให้ผู้ใช้ให้ข้อเสนอแนะเกี่ยวกับมาตรการเหล่านี้ [7]

การอ้างอิง:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1ADF000C8F675958C2EE23805D91AAADE1CD4613/Responsile-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

คำตอบจาก Perplexity: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output
-
-
-