โมเดลใดที่ให้ความคุ้มครองที่แข็งแกร่งจากการเพิ่มระดับเครื่องมือหรือการดำเนินการรหัส

การป้องกันที่แข็งแกร่งที่สุดในการเพิ่มสิทธิ์ในการเพิ่มสิทธิ์ของเครื่องมือหรือช่องโหว่การดำเนินการรหัสในปัจจุบันมาจากการออกแบบตัวแทนที่ปลอดภัยขั้นสูงในกรอบรูปแบบภาษาขนาดใหญ่ (LLM) โดยเฉพาะอย่างยิ่งผู้ที่ใช้สถาปัตยกรรมคู่และความสมบูรณ์ของการไหลเวียน (PFI) โมเดลเหล่านี้แยกแยะตัวเองโดยการแยกการประมวลผลข้อมูลที่เชื่อถือได้และไม่น่าเชื่อถือบังคับใช้การแยกสิทธิพิเศษอย่างเข้มงวดและการใช้ยามรักษาความปลอดภัยที่กำหนดขึ้นเพื่อป้องกันการฉีดทันทีที่เป็นอันตรายและการเข้าถึงทรัพยากรที่ไม่ได้รับอนุญาต

หลักการป้องกันหลักในแบบจำลองเอเจนต์ LLM ที่ปลอดภัย

การพัฒนาที่สำคัญในการลดความเสี่ยงในการเพิ่มขึ้นในตัวแทน LLM คือการแบ่งออกเป็นตัวแทนการสื่อสารสองครั้ง: ตัวแทนที่เชื่อถือได้ (ที่มีสิทธิพิเศษสูง) ที่จัดการกับข้อมูลและการดำเนินงานที่ละเอียดอ่อนหรือเชื่อถือได้และตัวแทนที่ไม่น่าเชื่อถือ การแยกสถาปัตยกรรมนี้ จำกัด ขอบเขตของสิ่งที่อินพุตที่เป็นอันตรายสามารถส่งผลกระทบและบังคับใช้หลักการของสิทธิพิเศษน้อยที่สุดโดยการทำให้มั่นใจว่าชิ้นส่วนที่ไม่น่าเชื่อถือไม่สามารถดำเนินการที่สามารถเพิ่มสิทธิ์ในการเข้าถึงหรือดำเนินการรหัสโดยพลการ

Flow Integrity (PFI) เฟรมเวิร์ก

PFI เป็นเฟรมเวิร์กขั้นสูงที่ออกแบบมาเพื่อป้องกันการเพิ่มสิทธิพิเศษโดยการจัดการการไหลเวียนของข้อมูลพรอมต์และปลั๊กอินอย่างปลอดภัยภายในสภาพแวดล้อม Agent LLM มันมีเวิร์กโฟลว์ที่ไหน:

- เอเจนต์ที่เชื่อถือได้จะได้รับพรอมต์ของผู้ใช้และประมวลผลข้อมูลที่เชื่อถือได้
- ข้อมูลที่ไม่น่าเชื่อถือที่ตรวจพบจากปลั๊กอินหรือแหล่งภายนอกจะถูกถ่ายไปยังเอเจนต์ที่ไม่น่าเชื่อถือ
- เอเจนต์ที่ไม่น่าเชื่อถือได้ จำกัด สิทธิ์และการเข้าถึงเครื่องมือหรือการดำเนินงานที่ละเอียดอ่อน จำกัด
- การสื่อสารระหว่างตัวแทนใช้การอ้างอิงข้อมูลที่เข้ารหัสมากกว่าเนื้อหาที่ไม่น่าเชื่อถือดิบป้องกันการฉีดที่เป็นอันตรายในบริบทของตัวแทนที่เชื่อถือได้
- Guardrails ตรวจสอบการไหลของข้อมูลที่ไม่น่าเชื่อถือและคำแนะนำในการควบคุมการเพิ่มการแจ้งเตือนหากตรวจพบการดำเนินการที่ไม่ปลอดภัยหรือความพยายามในการเพิ่มสิทธิพิเศษที่ไม่ได้รับอนุญาตนั้นเกี่ยวข้องกับการยินยอมของผู้ใช้อย่างชัดเจนหรือกลไกการปิดกั้นอัตโนมัติ

Guardrails, DataGuard และ Ctrlguard เหล่านี้มีความมุ่งมั่นและหลีกเลี่ยงข้อดีหรือการพลาดที่ผิดพลาดโดยการบังคับใช้การไหลของข้อมูลและนโยบายการไหลของการควบคุมตามการติดตามระดับสิทธิพิเศษและความน่าเชื่อถือของข้อมูลอย่างเข้มงวด สถาปัตยกรรมนี้ช่วยลดความเสี่ยงของการดำเนินการคำสั่งหรือรหัสที่เป็นอันตรายภายในสภาพแวดล้อมตัวแทน

ประสิทธิภาพเปรียบเทียบของ PFI ผ่านการป้องกันก่อนหน้านี้

ก่อนเฟรมเวิร์กเช่น PFI การป้องกันทั่วไปอาศัยการปรับแต่งแบบจำลองและการเรียนรู้ในบริบทเพื่อกีดกันการสร้างพรอมต์ที่เป็นอันตรายหรือการดำเนินการตามคำสั่ง ในขณะที่มีประโยชน์วิธีการที่น่าจะเป็นเหล่านี้มีความเสี่ยงที่จะข้าม วิธีการอื่น ๆ แนะนำพาร์ติชันที่เชื่อถือได้/ไม่น่าเชื่อถือ แต่มักจะขาดการกำหนดรั้วที่กำหนดส่งผลให้การรับประกันความปลอดภัยไม่สมบูรณ์

PFI ช่วยเพิ่มการป้องกันเหล่านี้โดยการรวม:

- การจำแนกประเภทของแหล่งข้อมูลเพื่อระบุเนื้อหาที่ไม่น่าเชื่อถือ
- การแยกสิทธิพิเศษอย่างเข้มงวดที่บังคับใช้ผ่านตัวแทนที่เปลี่ยนเส้นทางหลายสาย
- การบังคับใช้นโยบายการไหลพร้อมใช้งานด้วยกลไกการป้องกันอย่างเป็นทางการ
- การแจ้งเตือนแบบเรียลไทม์และการอนุมัติผู้ใช้เกี่ยวกับการไหลที่น่าสงสัย

ผลลัพธ์จากการทดสอบมาตรฐานแสดงให้เห็นว่า PFI ช่วยลดการเพิ่มสิทธิ์ในการเพิ่มสิทธิ์และอัตราความสำเร็จในการโจมตีของการฉีดเข้าใกล้ศูนย์ซึ่งมีประสิทธิภาพสูงกว่าระบบก่อนหน้านี้เช่นตัวแทน React, Isolategpt และ F-Secure LLM ในขณะที่ยังคงใช้การใช้งานที่สูงขึ้น

การป้องกันเหล่านี้ช่วยลดความเสี่ยงในการดำเนินการรหัสได้อย่างไร

การเลื่อนระดับที่ใช้เครื่องมือมักเกิดขึ้นเมื่อผู้โจมตีป้อนเคล็ดลับตัวแทน LLM ในการออกคำสั่งเชลล์ที่ไม่ได้รับอนุญาตหรือเรียกใช้รหัสโดยพลการ ด้วยการแยกอินพุตที่ไม่น่าเชื่อถือในสภาพแวดล้อมที่มีอำนาจต่ำและการคัดกรองและควบคุมการไหลของข้อมูลอย่างเข้มงวดโมเดลเหล่านี้จะป้องกันไม่ให้อินพุตผู้โจมตีเสียหายจากการทำลายบริบทการดำเนินการของตัวแทนที่เชื่อถือได้หรือยกระดับสิทธิพิเศษ

ยิ่งไปกว่านั้นเนื่องจากตัวแทนที่ไม่น่าเชื่อถือมีปลั๊กอินที่ จำกัด และไม่มีการเข้าถึงคำสั่งระบบที่สำคัญหรือ API ที่ละเอียดอ่อนความพยายามที่เป็นอันตรายใด ๆ ในการเรียกใช้รหัสหรือการเพิ่มสิทธิพิเศษล้มเหลวหรือถูกตั้งค่าสถานะล่วงหน้า เอเจนต์ที่เชื่อถือได้ไม่เคยประมวลผลข้อมูลดิบที่ไม่น่าเชื่อถือโดยตรง แต่ใช้งานได้กับพร็อกซีหรือการอ้างอิงที่ไม่สามารถฝังคำแนะนำที่เป็นอันตรายได้

บริบทเพิ่มเติมเกี่ยวกับการเพิ่มสิทธิพิเศษนอกเหนือจาก LLMS

ในขณะที่การมุ่งเน้นที่นี่คือโมเดลที่ใช้ LLM แต่ก็น่าสังเกตว่าการเพิ่มสิทธิ์ในการเพิ่มสิทธิ์เป็นปัญหาที่ได้รับการศึกษาอย่างดีในการรักษาความปลอดภัยไอทีแบบดั้งเดิมซึ่งผู้โจมตีใช้ประโยชน์จากช่องโหว่ของซอฟต์แวร์เพื่อให้เข้าถึงหรือควบคุมได้โดยไม่ได้รับอนุญาต กลยุทธ์การบรรเทาผลกระทบทั่วไป ได้แก่ :

- Sandboxing ระดับระบบการทำงานที่เข้มงวดและคอนเทนเนอร์
- การควบคุมการเข้าถึงสิทธิพิเศษน้อยที่สุดและการอนุญาตตามบทบาท
- การตรวจสอบรหัสที่ครอบคลุมและแนวทางการเขียนโค้ดที่ปลอดภัย
- การใช้ระบบป้องกันการบุกรุก (IPS) และเครื่องมืออัตโนมัติสำหรับการตรวจจับและการบล็อก

หลักการเหล่านี้เสริมและบางครั้งหนุนการปรับใช้แบบจำลองที่ปลอดภัยโดยเฉพาะอย่างยิ่งเมื่อ LLM ถูกรวมเข้ากับโครงสร้างพื้นฐานของระบบที่กว้างขึ้น

โดยสรุปโมเดลที่ใช้ความสมบูรณ์ของการไหลพร้อมกับสถาปัตยกรรมคู่และเกณฑ์ที่กำหนดขึ้นนั้นให้การปกป้องร่วมสมัยที่แข็งแกร่งที่สุดในการเพิ่มสิทธิ์ตามสิทธิของเครื่องมือและการดำเนินการรหัสที่ไม่ได้รับอนุญาตในสภาพแวดล้อม LLM วิธีการของพวกเขาในการแยกอินพุตที่ไม่น่าเชื่อถือบังคับใช้สิทธิพิเศษน้อยที่สุดและการตรวจสอบข้อมูลและการควบคุมการไหลของการควบคุมอย่างเข้มงวดทำให้การลดการฉีดและการโจมตีเพิ่มขึ้นอย่างใกล้ชิดและการป้องกันการเพิ่มขึ้นก่อน ML หรือการป้องกันการแยกเอเจนต์