ويعزى تخفيض GPT-5 في معدلات الهلوسة إلى كل من تنظيم بيانات التدريب ومنهجيات التدريب المتقدمة. أبلغت Openai بشكل علني أن استجابات GPT-5 أقل احتمالًا بنسبة 45 ٪ لاحتواء أخطاء واقعية مقارنةً بـ GPT-4O ، ومع وضع "التفكير" المتقدم ، تنخفض الأخطاء الواقعية بنسبة 80 ٪ تقريبًا إلى نموذج O3 السابق. إن قمع الهلوسة في GPT-5 ليس نتيجة لمجموعة بيانات واحدة ، ولكنها عملية متطورة لتجميع مجموعات البيانات ، والتصفية ، وما بعد التدريب المستمر مع التعليقات البشرية ، وتكامل موارد الفحص الواقعية الخارجية.
جودة البيانات واستراتيجية التنظيم
أول عمود Openai ضد الهلوسة في GPT-5 هو استخدام مجموعات بيانات موسعة وعالية الجودة وبرعاية. هذا يعنى:
- من المرجح أن يتم التحقق من بيانات المصدر وسمعة طيبة.
- يتم بذل جهود صريحة لإزالة أو تقليل محتوى غير موثوق به أو متحيز أو ضار أثناء التدريب المسبق وأثناء دورات تحديث البيانات.
-يتم ترشيح البيانات التي يتم توزيعها على المستخدم ، ومجهول الهوية ، وتم فحصها للوقائع قبل الإدراج في صياغة النمذجة أو المكافآت الخاضعة للإشراف.
لمزيد من تقليل مخاطر الهلوسة ، نشر Openai عمليات تنظيف بيانات واسعة النطاق لتحديد واستبعاد المحتوى الصاخب أو المتناقض أو الاصطناعي الذي يمكن أن يحفز الأخطاء في مخرجات النموذج.
ما بعد التدريب والتعزيز من ردود الفعل البشرية (RLHF)
ردود الفعل البشرية هي المركزية في بنية GPT-5. يخضع النموذج جولات مكثفة للتعلم التعزيز من ردود الفعل البشرية (RLHF) ، حيث يكون البشر المقيمين:
- يخرج القاضي من أجل الصواب الواقعية والتماسك والتوافق مع نية المستخدم.
- توفير تفضيلات الزوج على الأجيال النموذجية ، ودقة مكافأة والمعلوماتية مع معاقبة الهلوسة.
- تشكل هذه الإشارات أساسًا لنماذج المكافآت التي تعمل على تحسين GPT-5 لتفضيل الإكمال الصحيحة فعليًا.
بالإضافة إلى ذلك ، يتم زيادة RLHF من قبل طلاب الواقعيات الآلية تم التحقق من صحتها ضد الحكم البشري لتوسيع نطاق اكتشاف الهلوسة. يخدم هؤلاء طلاب الصف على حد سواء كمعيار كمي في التقييمات وكمكون من مكونات التدريب المستمر ، مما يتيح حلقات ردود فعل سريعة واسعة النطاق إلى ما بعد التعليقات التوضيحية البشرية فقط.
معايير التقييم واختبار الإجهاد
لقياس الهلوسة ، يتم اختبار GPT-5 بشكل صارم على الإجهاد على معايير الواقعية العامة والداخلية الجديدة مثل Longfact (المفاهيم والأشياء) و FactScore (مطالبات البحث عن الحقائق). يستهدف إطار التقييم مطالبات أكثر صعوبة ومفتوحة ومحتوى طويل الشكل ، حيث ازدهرت الهلوسة سابقًا. وفقًا لـ Openai ، ينتج "GPT-5 Thinking" حوالي ستة أضعاف الهلوسة من O3 في هذه المهام.
يتم تقييم GPT-5 أيضًا في حركة الإنتاج في العالم الحقيقي ومجموعات الاختبار المتخصصة ، حيث يتم قياس قدرتها على الاعتراف بشكل صحيح بالفجوات المعرفة وتجنب التصنيع مباشرة وتحسينها. على سبيل المثال ، تم تحسين رفض النموذج لابتكار الأصول غير الموجودة في الإعدادات متعددة الوسائط بشكل ملحوظ مقارنة بالأجيال السابقة.
التدخلات المعمارية والتدريب
العديد من التدخلات الأعمق خلال التدريب الهلوسة المستهدفة:
-يتم دمج سلسلة التقدير والتفكير المنظم في مراحل ما قبل التدريب والضوء ، مما يتيح النموذج من إنتاج مخرجات أكثر تفسيرًا ومتسقة بدلاً من التخمينات الواثقة.
-يستبدل نموذج الإكمال الآمن نموذج السلامة القائم على الرفض الأقدم ، حيث يقوم بتدريب GPT-5 لتوفير ردود مفيدة أو محدودة أو لتوصيل حدوده وتفكيره بشفافية عندما لا يمكن الإجابة بأمان.
-استخدام الأدوات والتوليد المتمثل في الاسترجاع (RAG): يتم تدريب GPT-5 بشكل منهجي على الاستفادة من البحث على الويب وأدوات فحص الحقائق الخارجية للاستعلامات التي تتطلب معرفة محدثة أو محددة للغاية. هذا يقلل بشكل كبير من خطر الهلوسة على الموضوعات الغامضة أو سريعة التطور.
- تخفيض sycophancy: يجمع خط أنابيب تنشيط GPT-5 صراحة البيانات المصممة لفخ نماذج في "أخطاء الاتفاق" ، وتسجيل إجابات من أجل sycophancy واستخدام هذه الدرجات كمكافأة سلبية خلال RLHF ، والهجوم المباشر على الهلوس بالاتفاق.
نتائج وقيود العالم الحقيقي
على الرغم من هذه التطورات ، فإن GPT-5 ليس محصنًا تمامًا من الهلوسة. على سبيل المثال:
-لا يزال معدل الهلوسة المبلغ عنها للمهام المعقدة والمفتوحة (تقاس بمعايير مثل QA البسيطة) مهمة ، خاصة عندما يتم قطع النظام عن أدوات فحص الحقائق الحية.
- يؤدي الوصول إلى بحث الويب إلى تقليل معدلات الخطأ إلى حد كبير ، مما يوضح أهمية التدريب المختلط (الجمع بين البيانات المنسقة الثابتة والاسترجاع) في الهلوسة المعتدلة.
- تستمر بعض المطالبات الإبداعية أو المجردة في تحدي آليات تأريض النظام.
التحديثات المستمرة والتعليقات المجتمعية
يتغذى نظام GPT-5 على بيانات المجتمع والمستخدم الحقيقي المستمر ، مع آليات التغذية المرتدة التي تسمح بالرقابة السريعة للهلوسة المكتشفة وطرح التحسينات في كل من تصفية البيانات وتصميم وظيفة المكافأة. يعترف Openai علناً بالحاجة إلى مزيد من التحسن ، وخاصة في مجالات المخاطر العالية مثل الرعاية الصحية والقانون ، حيث يجب أن يكون التسامح مع الأخطاء ضئيلًا.
ملخص خطوات التنسيق الرئيسية
لتوليفها ، ينشأ تقليل الهلوسة في GPT-5 من العمليات المتشابكة التالية:
1.
2. استبعاد محتوى صاخب أو غير موثوق به أو متحيز أثناء تجميع مجموعة البيانات ، يعززها المراجعة الآلية واليدوية في مراحل متعددة.
3. التعلم التعزيز والتعليقات المستمرة بناءً على الدرجات البشرية والآلية على نطاق واسع من أجل الواقعية والصدق.
4. التقييم ضد معايير الواقعية القوية ، على حد سواء ثابتة وواقعية ، وقياس المعدل الدقيق ونوع الهلوسة في ظل ظروف مختلفة.
5. التدخلات بعد التدريب ، بما في ذلك استراتيجيات الانتهاء الأكثر أمانًا ، وقمع sycophancy الصريح ، والتكامل القوي مع المعرفة الاسترجاع أو الأدوات.
6. ضبط التكرار المباشر من ردود الفعل الإنتاجية والدوار الأحمر ، مما يضمن اكتشاف ومعالجة تسربات جديدة للهلوسة ومعالجتها.