لقد رأيت مؤخرًا مقارنة مثيرة للاهتمام تتعلق بقدرات نماذج الذكاء الاصطناعي المختلفة. على مقياس PinchBench، يتصدر وكيل OpenClaw في مهام Gemini 3 Flash بنسبة نجاح تبلغ 95.1%، وهو أمر مثير للإعجاب جدًا.



ما هو مثير للاهتمام هو أن النماذج القوية الأخرى قريبة جدًا من ذلك. حقق minimax-m2.1 نسبة 93.6% و kimi-k2.5 بنسبة 93.4%. بالإضافة إلى ذلك، فإن Claude Sonnet 4.5 عند 92.7% و GPT-4o عند 85.2%. تُظهر هذه الأرقام كيف تختلف أداء النماذج المختلفة في مهام مختلفة.

هذه البيانات مهمة للأشخاص الذين يرغبون في اختيار نماذج الذكاء الاصطناعي الصحيحة. شارك CISO Magma 23pads هذه المعلومات، وتُظهر مدى سرعة تطور الذكاء الاصطناعي. إذا كنت تبحث عن نماذج لمهام تعتمد على الوكيل، فقد تكون هذه النتائج مفيدة جدًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت