تدريب الجيل التالي بعد V4: استبدال OPD بالتعلم المعزز المختلط، وتقطير أكثر من عشرة نماذج خبراء إلى نموذج واحد

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، حدث تغيير كبير في منهجية التدريب بعد إصدار DeepSeek V4: تم استبدال مرحلة RL المختلطة في V3.2 تمامًا بـ On-Policy Distillation (OPD، التقطير عبر السياسات عبر الإنترنت).

تتكون العملية الجديدة من خطوتين. الخطوة الأولى، فيما يتعلق بالمجالات مثل الرياضيات، والرموز البرمجية، والوكيل، وتتبع الأوامر، يتم تدريب نماذج خبراء مجالات بشكل منفصل على أساس خط أنابيب V3.2، حيث يقوم كل خبير أولاً بإجراء تعديل دقيق ثم يستخدم GRPO للتعلم المعزز. الخطوة الثانية، يتم باستخدام OPD متعدد المعلمين تقطير قدرات أكثر من عشرة خبراء إلى نموذج موحد: حيث يقوم الطالب على مساراته الخاصة التي يولدها، بإجراء تقطير لوغاريتمات logits عبر توزيع KL العكسي لكل معلم، من خلال محاذاة مستوى logits لدمج أوزان الخبراء المتعددين في مساحة معلمات موحدة، مما يتجنب الصراعات الشائعة في قدرات الدمج التقليدي للأوزان وRL المختلط.

كما اقترح التقرير نموذج المكافأة التوليدي (GRM، نموذج المكافأة التوليدي): بالنسبة للمهام التي يصعب التحقق منها باستخدام القواعد، لم يتم تدريب نموذج مكافأة قياسي بسيط، بل تم تدريب GRM باستخدام بيانات RL موجهة بواسطة rubrics، مما يسمح لشبكة الممثل (actor) بتحمل قدرات التوليد والتقييم في الوقت نفسه، مع إمكانية التعميم على المهام المعقدة باستخدام كمية صغيرة ومتنوعة من التصنيفات اليدوية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت