Bagaimana GPT-5 Mengurangi Tingkat Halusinasi: Kurasi Data, Pelatihan, dan Strategi Umpan Balik

Pengurangan GPT-5 dalam tingkat halusinasi disebabkan oleh kurasi data pelatihan dan metodologi pelatihan lanjutan. Openai telah secara terbuka melaporkan bahwa respons GPT-5 hingga 45% lebih kecil kemungkinannya untuk mengandung kesalahan faktual dibandingkan dengan GPT-4O, dan dengan mode "penalaran" canggih, kesalahan faktual turun sekitar 80% relatif terhadap model O3 sebelumnya. Penindasan halusinasi dalam GPT-5 bukan hasil dari satu dataset, tetapi proses canggih dari kumpulan dataset, penyaringan, pasca-pelatihan terus menerus dengan umpan balik manusia, dan integrasi sumber daya pemeriksaan faktual eksternal.

Kualitas Data dan Strategi Kurasi

Pilar pertama Openai melawan halusinasi di GPT-5 adalah penggunaan set data yang diperluas, berkualitas tinggi, dan dikuratori. Ini berarti:
- Data sumber lebih mungkin diverifikasi dan memiliki reputasi baik.
- Upaya eksplisit dilakukan untuk menghapus atau meminimalkan konten yang tidak dapat diandalkan, bias, atau jahat selama pra-pelatihan dan selama siklus penyegaran data.
-Data yang dikontribusikan pengguna disaring, dianonimkan, dan diteliti untuk faktisitas sebelum dimasukkan dalam pemodelan fine-tuning atau penghargaan yang diawasi.

Untuk lebih mengurangi risiko halusinasi, OpenAI telah menggunakan proses pembersihan data yang luas untuk mengidentifikasi dan mengecualikan konten yang bising, kontradiktif, atau sintetis yang dapat menyebabkan kesalahan dalam output model.

pasca-pelatihan dan penguatan dari umpan balik manusia (RLHF)

Umpan balik manusia adalah pusat arsitektur GPT-5. Model ini mengalami putaran pembelajaran penguatan yang intensif dari umpan balik manusia (RLHF), di mana penilai manusia:
- Hakim output untuk kebenaran faktual, koherensi, dan penyelarasan dengan niat pengguna.
- Memberikan preferensi berpasangan pada generasi model, akurasi yang bermanfaat dan keinformatifan saat menghukum halusinasi.
- Sinyal-sinyal ini membentuk dasar untuk model hadiah yang selanjutnya mengoptimalkan GPT-5 untuk lebih memilih penyelesaian yang benar secara faktual.

Selain itu, RLHF ditambah oleh grader faktualitas otomatis divalidasi terhadap penilaian manusia untuk skala deteksi halusinasi. Anak-anak kelas ini berfungsi baik sebagai tolok ukur kuantitatif dalam evaluasi dan sebagai komponen pelatihan berkelanjutan, memungkinkan loop umpan balik skala besar dan cepat di luar semata-mata anotasi manusia.

tolok ukur evaluasi dan pengujian stres

Untuk mengukur halusinasi, GPT-5 secara ketat diuji stres pada tolok ukur faktualitas publik dan internal baru seperti LongFact (konsep dan objek) dan FactScore (petunjuk pencarian fakta). Kerangka kerja evaluasi menargetkan permintaan yang lebih keras dan terbuka dan konten bentuk panjang, area di mana halusinasi yang sebelumnya berkembang. Menurut Openai, "GPT-5 Thinking" menghasilkan hingga enam kali lebih sedikit halusinasi daripada O3 pada tugas-tugas ini.

GPT-5 juga dievaluasi dalam lalu lintas produksi dunia nyata dan set uji khusus, di mana kemampuannya untuk mengakui kesenjangan pengetahuan dengan benar dan menghindari fabrikasi diukur dan ditingkatkan secara langsung. Misalnya, penolakan model untuk menciptakan aset yang tidak ada dalam pengaturan multimodal telah meningkat secara nyata dibandingkan dengan generasi sebelumnya.

intervensi arsitektur dan pelatihan

Beberapa intervensi yang lebih dalam selama Halusinasi Target Pelatihan:

-Penalaran rantai yang diminta dan terstruktur dibangun menjadi fase pra-pelatihan dan penyempurnaan, memungkinkan model untuk menghasilkan output yang lebih mudah dijelaskan dan dibumikan daripada dugaan yang percaya diri.
-Paradigma penyelesaian yang aman menggantikan model keselamatan berbasis penolakan yang lebih lama, melatih GPT-5 untuk memberikan tanggapan yang membantu dan dibatasi atau untuk mengkomunikasikan batas dan penalarannya secara transparan ketika tidak dapat menjawab dengan aman.
-Penggunaan alat dan pengambilan-pengambilan generasi (RAG): GPT-5 dilatih secara sistematis untuk memanfaatkan pencarian web dan alat periksa fakta eksternal untuk kueri yang membutuhkan pengetahuan terkini atau sangat spesifik. Ini secara drastis mengurangi risiko halusinasi pada subjek yang tidak jelas atau berkembang cepat.
- Pengurangan Sycophancy: Pipa kurasi GPT-5 secara eksplisit mengumpulkan data yang dirancang untuk menjebak model dalam kesalahan perjanjian, mencetak jawaban untuk sycophancy dan menggunakan skor ini sebagai hadiah negatif selama RLHF, secara langsung menyerang halusinasi dengan masalah kesepakatan.

Hasil dan Keterbatasan Dunia Nyata

Terlepas dari kemajuan ini, GPT-5 tidak sepenuhnya kebal terhadap halusinasi. Misalnya:
-Laju halusinasi yang dilaporkan untuk tugas-tugas kompleks dan terbuka (diukur dengan tolok ukur seperti QA sederhana) tetap signifikan, terutama ketika sistem terputus dari alat pengecer fakta hidup.
- Akses ke pencarian web mengurangi tingkat kesalahan, menggambarkan pentingnya pelatihan hibrida (menggabungkan data yang dikuratori statis dengan pengambilan) dalam halusinasi moderat.
- Dorongan kreatif atau abstrak tertentu terus menantang mekanisme pembumian sistem.

Pembaruan Berkelanjutan dan Umpan Balik Komunitas

Sistem GPT-5 memberi makan komunitas yang berkelanjutan dan data pengguna nyata, dengan mekanisme umpan balik yang memungkinkan penambalan cepat halusinasi yang ditemukan dan peluncuran penyempurnaan dalam desain data pemfilteran dan penghargaan. Openai secara terbuka mengakui perlunya perbaikan lebih lanjut, terutama di domain berisiko tinggi seperti perawatan kesehatan dan hukum, di mana toleransi kesalahan harus minimal.

Ringkasan langkah kurasi kunci

Untuk mensintesis, pengurangan halusinasi dalam GPT-5 muncul dari proses yang saling terkait:

1. Pemilihan dan pemfilteran data pra-pelatihan yang cermat, dengan penekanan pada sumber dari database terkemuka dan mempertahankan konten faktual terkini.
2. Pengecualian konten yang bising, tidak dapat diandalkan, atau bias selama perakitan dataset, diperkuat dengan tinjauan otomatis dan manual pada beberapa tahap.
3. Pembelajaran Penguatan dan Umpan Balik Berkelanjutan Berdasarkan pada penilaian manusia dan otomatis skala besar untuk faktualitas dan kebenaran.
4. Evaluasi terhadap tolok ukur faktualitas yang kuat, baik statis maupun dunia nyata, mengukur tingkat yang tepat dan jenis halusinasi dalam berbagai kondisi.
5. Intervensi pasca-pelatihan, termasuk strategi penyelesaian yang lebih aman, penindasan penjilat eksplisit, dan integrasi yang kuat dengan pengambilan atau pengetahuan berbasis alat.
6. Tuning langsung iteratif dari umpan balik produksi dan tim merah, memastikan kebocoran baru halusinasi dengan cepat terdeteksi dan ditangani.

Strategi -strategi ini secara kolektif menandai pergeseran dari mitigasi pasif ke penindasan halusinasi yang aktif dan kuat ** meskipun tugas tetap menjadi yang berkembang, membutuhkan kewaspadaan, pembaruan terus -menerus, dan meneliti keterbukaan untuk mencapai margin kesalahan yang lebih rendah di masa depan.

Dataset pelatihan atau langkah kurasi mana yang memotong halusinasi di GPT-5