Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon อะไรคือความแตกต่างที่สำคัญในข้อมูลการฝึกอบรมที่ใช้สำหรับ Deepseek-R1 และ Llama 3.1


อะไรคือความแตกต่างที่สำคัญในข้อมูลการฝึกอบรมที่ใช้สำหรับ Deepseek-R1 และ Llama 3.1


ข้อมูลการฝึกอบรมสำหรับ Deepseek-R1 และ Llama 3.1 แสดงความแตกต่างที่สำคัญหลายประการซึ่งสะท้อนให้เห็นถึงวิธีการที่แตกต่างกันในการพัฒนาแบบจำลอง

ข้อมูลการฝึกอบรม DeepSeek-R1

Deepseek-R1 ได้รับการฝึกฝนโดยใช้กระบวนการหลายขั้นตอนที่รวมการเรียนรู้การเสริมแรง (RL) เข้ากับการปรับแต่งการปรับแต่ง (SFT) แบบจำลองเริ่มต้นด้วยเฟส "เริ่มเย็น" ซึ่งได้รับการปรับแต่งอย่างละเอียดในชุดตัวอย่างเล็ก ๆ ที่สร้างขึ้นอย่างระมัดระวังเพื่อปรับปรุงความชัดเจนและความสามารถในการอ่าน ตามด้วย RL บริสุทธิ์เพื่อเพิ่มทักษะการใช้เหตุผลคล้ายกับ R1-Zero ใกล้กับการบรรจบกันของ RL โมเดลใช้การสุ่มตัวอย่างการปฏิเสธเพื่อสร้างข้อมูลสังเคราะห์โดยเลือกตัวอย่างที่ดีที่สุดจาก RL ก่อนหน้านี้ ข้อมูลสังเคราะห์นี้จะถูกรวมเข้ากับข้อมูลภายใต้การดูแลจาก deepseek-v3-base ในโดเมนเช่นการเขียน, QA ที่เป็นข้อเท็จจริงและการรู้จำตนเอง ขั้นตอนสุดท้ายเกี่ยวข้องกับ RL อีกรอบหนึ่งในการแจ้งเตือนและสถานการณ์ที่หลากหลายเพื่อสรุปความสามารถของโมเดลเพิ่มเติม [1] [4]

llama 3.1 ข้อมูลการฝึกอบรม

ในทางกลับกัน Llama 3.1 ได้รับการฝึกฝนในคลังข้อมูลขนาดใหญ่ประมาณ 15 ล้านล้านโทเค็นจากแหล่งข้อมูลสาธารณะที่มีอยู่โดยมีวันที่ตัดความรู้ของเดือนธันวาคม 2023 [8] ชุดข้อมูลการฝึกอบรมรวมถึงการผสมผสานที่สมดุลของโดเมนทั่วไปข้อมูลทางคณิตศาสตร์และการให้เหตุผลข้อความหลายภาษาและรหัสจากภาษาการเขียนโปรแกรมต่างๆเพื่อเพิ่มการสร้างรหัสและความสามารถในการทำความเข้าใจ [5] แบบจำลองผ่านการฝึกอบรมก่อนเริ่มต้นโดยใช้วัตถุประสงค์การทำนายแบบเปิดตัวครั้งต่อไปตามด้วยการฝึกอบรมล่วงหน้าบริบทยาวเพื่อจัดการเอกสารยาวและงานการใช้เหตุผลที่ซับซ้อน การผสมผสานข้อมูลได้รับการปรับอย่างรอบคอบเพื่อปรับปรุงประสิทธิภาพในงานเฉพาะเช่นการเพิ่มข้อมูลที่ไม่ใช่ภาษาอังกฤษสำหรับความสามารถในการพูดได้หลายภาษาและการสุ่มตัวอย่างข้อมูลทางคณิตศาสตร์เพื่อการให้เหตุผลที่ดีขึ้น [2] [5]

ความแตกต่างที่สำคัญ

1. แนวทางการฝึกอบรม: Deepseek-R1 อาศัยการเรียนรู้การเสริมแรงและการสร้างข้อมูลสังเคราะห์อย่างหนักในขณะที่ Llama 3.1 ใช้วิธีการเรียนรู้แบบดั้งเดิมที่มีการดูแลแบบดั้งเดิมมากขึ้นด้วยชุดข้อมูลการฝึกอบรมล่วงหน้าขนาดใหญ่

2. แหล่งข้อมูล: Deepseek-R1 ใช้การรวมกันของข้อมูลเริ่มต้นเย็นเริ่มต้นและข้อมูลสังเคราะห์ที่สร้างขึ้นในระหว่างกระบวนการ RL ในทางตรงกันข้าม Llama 3.1 ได้รับการฝึกฝนในคลังข้อมูลขนาดใหญ่ของข้อมูลสาธารณะ

3. ปริมาณข้อมูลและคุณภาพ: LLAMA 3.1 ได้รับการฝึกฝนในชุดข้อมูลที่มีขนาดใหญ่กว่ามาก (~ 15 ล้านล้านโทเค็น) เมื่อเทียบกับชุดข้อมูลเริ่มต้นที่ค่อนข้างเล็กที่ใช้สำหรับ DeepSeek-R1 อย่างไรก็ตามการใช้ข้อมูลสังเคราะห์ Deepseek-R1 ช่วยให้สามารถบรรลุประสิทธิภาพสูงในงานให้เหตุผลแม้จะมีชุดข้อมูลเริ่มต้นที่เล็กกว่า

4. พื้นที่โฟกัส: ทั้งสองรุ่นมุ่งเน้นไปที่การปรับปรุงการใช้เหตุผลและความสามารถของความรู้ แต่ Deepseek-R1 ให้ความสำคัญกับการใช้เหตุผลผ่าน RL ในขณะที่ Llama 3.1 ยังมุ่งเน้นไปที่ความสามารถในการพูดคุยและการเข้ารหัส

โดยรวมแล้วข้อมูลการฝึกอบรมสำหรับ Deepseek-R1 และ Llama 3.1 สะท้อนให้เห็นถึงกลยุทธ์ที่แตกต่างกันในการพัฒนาแบบจำลองด้วยการใช้ประโยชน์จาก RL Deepseek-R1 และข้อมูลสังเคราะห์เพื่อให้ได้ความสามารถในการใช้เหตุผลที่แข็งแกร่ง

การอ้างอิง:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-wat-to-know-about-meta-s-new-405b-model-and-it-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1