العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 30 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
تدريب الجيل التالي بعد V4: استبدال OPD بالتعلم المعزز المختلط، وتقطير أكثر من عشرة نماذج خبراء إلى نموذج واحد
وفقًا لمراقبة Beating، حدث تغيير كبير في منهجية التدريب بعد إصدار DeepSeek V4: تم استبدال مرحلة RL المختلطة في V3.2 تمامًا بـ On-Policy Distillation (OPD، التقطير عبر السياسات عبر الإنترنت).
تتكون العملية الجديدة من خطوتين. الخطوة الأولى، فيما يتعلق بالمجالات مثل الرياضيات، والرموز البرمجية، والوكيل، وتتبع الأوامر، يتم تدريب نماذج خبراء مجالات بشكل منفصل على أساس خط أنابيب V3.2، حيث يقوم كل خبير أولاً بإجراء تعديل دقيق ثم يستخدم GRPO للتعلم المعزز. الخطوة الثانية، يتم باستخدام OPD متعدد المعلمين تقطير قدرات أكثر من عشرة خبراء إلى نموذج موحد: حيث يقوم الطالب على مساراته الخاصة التي يولدها، بإجراء تقطير لوغاريتمات logits عبر توزيع KL العكسي لكل معلم، من خلال محاذاة مستوى logits لدمج أوزان الخبراء المتعددين في مساحة معلمات موحدة، مما يتجنب الصراعات الشائعة في قدرات الدمج التقليدي للأوزان وRL المختلط.
كما اقترح التقرير نموذج المكافأة التوليدي (GRM، نموذج المكافأة التوليدي): بالنسبة للمهام التي يصعب التحقق منها باستخدام القواعد، لم يتم تدريب نموذج مكافأة قياسي بسيط، بل تم تدريب GRM باستخدام بيانات RL موجهة بواسطة rubrics، مما يسمح لشبكة الممثل (actor) بتحمل قدرات التوليد والتقييم في الوقت نفسه، مع إمكانية التعميم على المهام المعقدة باستخدام كمية صغيرة ومتنوعة من التصنيفات اليدوية.