GPT-4.5: تحسين الدقة مع انخفاض معدلات الهلوسة

هل هناك أي مجالات حيث يكون معدل الهلوسة في GPT-4.5 منخفضًا بشكل خاص

يوضح GPT-4.5 ، أحدث نموذج من Openai ، انخفاضًا كبيرًا في معدلات الهلوسة مقارنة بأسلافها. على الرغم من أنه يظهر عمومًا معدل الهلوسة يبلغ حوالي 37 ٪ ، إلا أن هناك مجالات وتقييمات محددة حيث يكون أدائها أفضل بشكل ملحوظ.

تقنيات تقليل الهلوسة

توظف GPT-4.5 تقنيات إشراف جديدة ، بما في ذلك الضبط الخاضع للإشراف (SFT) وتعلم التعزيز من التعليقات البشرية (RLHF) ، والتي تسهم في انخفاض معدل الهلوسة [1] [3]. تساعد هذه الأساليب في تحسين دقة النموذج وموثوقيته من خلال ضمان قيامه بإنشاء معلومات ترتكز على البيانات الواقعية.

الأداء في مجالات محددة

- تقييم personqa: في مجموعة بيانات PersonQa ، التي تختبر قدرة النموذج على الإجابة على الأسئلة حول الأشخاص بدقة ، يُظهر GPT-4.5 معدل هلوس حوالي 19 ٪. هذا أقل من معدله الإجمالي ويشير إلى أنه في المجالات التي تنطوي على معلومات واقعية عن الأفراد ، يعمل GPT-4.5 جيدًا مع عدد أقل من الهلوسة [3].

-المهام المتعلقة باللغة: تتفوق GPT-4.5 في مهام الكتابة والبرمجة ، وتقدم تفسيرات مفصلة ومساعدة في حل المشكلات العملية. في حين أن معدلات الهلوسة المحددة لهذه المهام غير مفصلة ، فإن التعرف على النموذج المحسّن للأنماط وقاعدة المعرفة الأوسع يسهم في مخرجات أكثر دقة وموثوقية [1] [5].

- مقارنة مع النماذج الأخرى: في بعض التقييمات ، مثل نموذج التفكير O1 ، يكون معدل الهلوسة GPT-4.5 أعلى (37 ٪ مقابل 44 ٪ لـ O1). ومع ذلك ، تم تصميم GPT-4.5 لتطبيقات الأغراض العامة بدلاً من مهام التفكير المتخصصة [5].

بشكل عام ، يكون معدل الهلوسة في GPT-4.5 منخفضًا بشكل خاص في المجالات حيث تم تدريبه وتقييمه على نطاق واسع ، كما هو الحال في مجموعة بيانات PersonQa. ومع ذلك ، يمكن أن يختلف أدائها عبر المهام والتقييمات المختلفة ، مما يعكس التحديات المستمرة في الحد من الهلوسة في نماذج الذكاء الاصطناعي.

الاستشهادات:
[1]
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and//
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-pecific-data-from-files-as-instructed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch؟v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new updates-open-source-table-diffusion-200k-context-context-21-139386