Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ما هي مجموعات البيانات المحددة التي استخدمت لتدريب GPT-4.5


ما هي مجموعات البيانات المحددة التي استخدمت لتدريب GPT-4.5


تم تدريب GPT-4.5 على مجموعة متنوعة من مجموعات البيانات ، بما في ذلك مزيج من البيانات المتاحة للجمهور ، والبيانات الملكية من شراكات البيانات ، ومجموعات البيانات المخصصة التي تم تطويرها في الشركة. تساهم مجموعات البيانات هذه بشكل جماعي في إمكانات المحادثة القوية للنموذج والمعرفة العالمية. ومع ذلك ، لم يتم ذكر تفاصيل محددة حول مجموعات البيانات الدقيقة المستخدمة بشكل صريح في المعلومات المتاحة.

تضمنت عملية التدريب تقنيات إشراف جديدة جنبًا إلى جنب مع الأساليب التقليدية مثل الضبط الخاضع للإشراف (SFT) وتعلم التعزيز من التعليقات البشرية (RLHF) ، على غرار تلك المستخدمة في GPT-4O [1] [3]. تضمن تطور النموذج أيضًا تقنيات محاذاة قابلة للتطوير ، حيث تولد النماذج الأصغر بيانات تدريب عالية الجودة للنماذج الأكبر ، مما يعزز قابلية توجيه النموذج وفهمها للفروق [7].

يتضمن خط أنابيب معالجة بيانات Openai تصفية صارمة للحفاظ على جودة البيانات وتخفيف المخاطر المحتملة. يستخدمون عمليات تصفية البيانات المتقدمة لتقليل معالجة المعلومات الشخصية عند تدريب النماذج الخاصة بهم. بالإضافة إلى ذلك ، يستخدمون مجموعة من مصنفات API ومصنفات السلامة لمنع استخدام المحتوى الضار أو الحساس [1].

في حين أن مجموعات البيانات الدقيقة غير مفصلة ، فإن النهج يؤكد على أساس بيانات واسع ومتنوع لدعم قدرات GPT-4.5 في مهام مثل الكتابة والبرمجة وحل المشكلات العملية مع عدد أقل من الهلوسة [1] [3].

الاستشهادات:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://towardsdatascience.com/what-gpt-4-brings-to-the-table-74e392a32ac3/
[3] https://www.lesswrong.com/posts/fqajgqcpmgehkoee6/openai-releases-gpt-4-5
[4] https://www.chatbase.co/blog/gpt-5
[5] https://www.wired.com/story/openai-gpt-45/
[6] https://www.datacamp.com/blog/everything-we-know-about-gpt-5
[7] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-mood-tis-model-is
[8] https://arxiv.org/html/2404.07840v1