Model mana yang menawarkan perlindungan yang lebih kuat terhadap eskalasi berbasis alat atau eksekusi kode

Perlindungan terkuat terhadap eskalasi hak istimewa berbasis alat atau kerentanan eksekusi kode saat ini berasal dari desain agen yang aman dalam kerangka kerja model bahasa besar (LLM), terutama yang menggunakan prinsip arsitektur agen ganda dan prinsip integritas aliran cepat (PFI). Model -model ini membedakan diri mereka dengan mengisolasi pemrosesan data yang tepercaya dan tidak terpercaya, menegakkan pemisahan hak istimewa yang ketat, dan menerapkan pagar keamanan deterministik untuk mencegah injeksi cepat yang berbahaya dan akses sumber daya yang tidak sah.

Prinsip Perlindungan Inti dalam Model Agen LLM Aman

Terobosan utama dalam mengurangi risiko eskalasi dalam agen LLM adalah pembagian menjadi dua agen yang berkomunikasi: agen tepercaya (dengan hak istimewa tinggi) yang menangani data dan operasi yang sensitif atau tepercaya, dan agen yang tidak dipercaya (dengan hak istimewa terbatas) yang berpotensi berpotensi tidak aman atau penyerang yang dikontrolkan. Isolasi arsitektur ini membatasi ruang lingkup dari apa yang dapat dampak input jahat dan menegakkan prinsip hak istimewa yang paling tidak dengan memastikan bahwa bagian yang tidak dipercaya tidak dapat melakukan operasi yang dapat meningkatkan hak akses mereka atau menjalankan kode sewenang -wenang.

Kerangka kerja integritas aliran prompt (PFI) ###

PFI adalah kerangka kerja lanjutan yang dirancang untuk mencegah eskalasi hak istimewa dengan mengelola aliran prompt dan plugin secara aman dalam lingkungan agen LLM. Ini menawarkan alur kerja di mana:

- Agen tepercaya menerima petunjuk pengguna dan proses data tepercaya.
- Data yang tidak terpercaya yang terdeteksi dari plugin atau sumber eksternal diturunkan ke agen yang tidak dipercaya.
- Agen yang tidak dipercaya telah membatasi hak istimewa dan akses terbatas ke perkakas atau operasi yang sensitif.
- Komunikasi antar agen menggunakan referensi data yang dikodekan daripada konten mentah yang tidak dipercaya, mencegah injeksi berbahaya ke dalam konteks agen tepercaya.
- Gagar memantau aliran data yang tidak dapat dipercaya dan instruksi kontrol, meningkatkan peringatan jika operasi yang tidak aman atau upaya eskalasi hak istimewa yang tidak sah terdeteksi, sehingga melibatkan persetujuan pengguna eksplisit atau mekanisme pemblokiran otomatis.

Paget ini, DataGuard dan Ctrlguard, bersifat deterministik dan menghindari positif palsu atau kehilangan dengan menegakkan kebijakan aliran data dan kontrol yang didasarkan pada pelacakan ketat tingkat hak istimewa dan kepercayaan data. Arsitektur ini sangat mengurangi risiko melaksanakan perintah atau kode jahat dalam lingkungan agen.

Efektivitas komparatif PFI dibandingkan pertahanan sebelumnya

Sebelum kerangka kerja seperti PFI, pertahanan umum sangat bergantung pada fine-tuning model dan pembelajaran dalam konteks untuk mencegah pembuatan cepat yang berbahaya atau eksekusi perintah. Meskipun bermanfaat, pendekatan probabilistik ini rentan terhadap bypass. Pendekatan lain memperkenalkan partisi tepercaya/tidak dipercaya tetapi seringkali tidak memiliki pagar deterministik, yang menghasilkan jaminan keamanan yang tidak lengkap.

PFI meningkatkan pertahanan ini dengan menggabungkan:

- Klasifikasi kepercayaan sumber data untuk mengidentifikasi konten yang tidak dipercaya.
- Pemisahan hak istimewa yang ketat ditegakkan melalui beberapa agen yang dialihkan.
- Penegakan kebijakan aliran cepat dengan mekanisme pagar pembatas formal.
- Peringatan waktu nyata dan persetujuan pengguna tentang aliran yang mencurigakan.

Hasil dari tes benchmark menunjukkan PFI secara dramatis mengurangi eskalasi hak istimewa dan tingkat keberhasilan serangan injeksi yang cepat hingga mendekati nol, jauh mengungguli sistem sebelumnya seperti React Agent, Isolategpt, dan F-Secure LLM, sambil mempertahankan kegunaan operasional yang lebih tinggi.

Bagaimana perlindungan ini mengurangi risiko eksekusi kode

Eskalasi berbasis pahat sering muncul ketika penyerang input trik agen LLM untuk mengeluarkan perintah shell yang tidak sah atau menjalankan kode sewenang-wenang. Dengan mengisolasi input yang tidak dipercaya di lingkungan privilege rendah dan menyaring dan mengendalikan aliran data secara ketat, model-model ini mencegah input penyerang merusak konteks eksekusi agen tepercaya atau peningkatan hak istimewa.

Selain itu, karena agen yang tidak dipercaya memiliki plugin terbatas dan tidak ada akses ke perintah sistem kritis atau API sensitif, setiap upaya jahat untuk menjalankan kode atau meningkatkan hak istimewa gagal atau ditandai lebih awal. Agen tepercaya tidak pernah secara langsung memproses data mentah yang tidak dipercaya tetapi hanya bekerja dengan proxy atau referensi yang tidak dapat disembuhkan yang tidak dapat menanamkan instruksi berbahaya.

Konteks tambahan tentang eskalasi hak istimewa di luar LLMS

Sementara fokusnya di sini adalah pada model berbasis LLM, perlu dicatat bahwa eskalasi hak istimewa adalah masalah yang dipelajari dengan baik dalam keamanan TI tradisional, di mana penyerang mengeksploitasi kerentanan perangkat lunak untuk mendapatkan akses atau kontrol yang tidak sah. Strategi mitigasi umum meliputi:

- Sandboxing dan kontainerisasi tingkat sistem operasi yang ketat.
- Kontrol akses hak istimewa dan izin berbasis peran.
- Ulasan kode komprehensif dan praktik pengkodean yang aman.
- Penggunaan sistem pencegahan intrusi (IPS) dan alat otomatis untuk deteksi dan pemblokiran.

Prinsip -prinsip ini melengkapi dan kadang -kadang mendukung penyebaran model aman, terutama ketika LLM diintegrasikan dengan infrastruktur sistem yang lebih luas.

***

Sebagai kesimpulan, model yang menerapkan integritas aliran cepat dengan arsitektur agen ganda dan pagar deterministik menawarkan perlindungan kontemporer terkuat terhadap eskalasi hak istimewa berbasis alat dan pelaksanaan kode yang tidak sah di lingkungan LLM. Pendekatan mereka untuk mengisolasi input yang tidak dipercaya, menegakkan hak istimewa yang paling tidak, dan memantau data dan aliran kontrol secara ketat mencapai mitigasi injeksi dan eskalasi yang cepat, melampaui pertahanan isolasi berbasis ML atau agen sebelumnya.