وفقًا لمراقبة Beating، حدث تغيير كبير في منهجية التدريب بعد إصدار DeepSeek V4: تم استبدال مرحلة RL المختلطة في V3.2 تمامًا بـ On-Policy Distillation (OPD، التقطير عبر السياسات عبر الإنترنت).

تتكون العملية الجديدة من خطوتين. الخطوة الأولى، فيما يتعلق بالمجالات مثل الرياضيات، والرموز البرمجية، والوكيل، وتتبع الأوامر، يتم تدريب نماذج خبراء مجالات بشكل منفصل على أساس خط أنابيب V3.2، حيث يقوم كل خبير أولاً بإجراء تعديل دقيق ثم يستخدم GRPO للتعلم المعزز. الخطوة الثانية، يتم باستخدام OPD متعدد المعلمين تقطير قدرات أكثر من عشرة خبراء إلى نموذج موحد: حيث يقوم الطالب على مساراته الخاصة التي يولدها، بإجراء تقطير لوغاريتمات logits عبر توزيع KL العكسي لكل معلم، من خلال محاذاة مستوى logits لدمج أوزان الخبراء المتعددين في مساحة معلمات موحدة، مما يتجنب الصراعات الشائعة في قدرات الدمج التقليدي للأوزان وRL المختلط.

كما اقترح التقرير نموذج المكافأة التوليدي (GRM، نموذج المكافأة التوليدي): بالنسبة للمهام التي يصعب التحقق منها باستخدام القواعد، لم يتم تدريب نموذج مكافأة قياسي بسيط، بل تم تدريب GRM باستخدام بيانات RL موجهة بواسطة rubrics، مما يسمح لشبكة الممثل (actor) بتحمل قدرات التوليد والتقييم في الوقت نفسه، مع إمكانية التعميم على المهام المعقدة باستخدام كمية صغيرة ومتنوعة من التصنيفات اليدوية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
327.34K درجة الشعبية
#
CryptoMarketsDipSlightly
227.66K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
35.12K درجة الشعبية
#
#DailyPolymarketHotspot
659.13K درجة الشعبية
#
SolanaReleasesQuantumRoadmap
12.75M درجة الشعبية

تثبيت

خريطة الموقع

تدريب الجيل التالي بعد V4: استبدال OPD بالتعلم المعزز المختلط، وتقطير أكثر من عشرة نماذج خبراء إلى نموذج واحد

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

تثبيت