Войны ИИ становятся все интереснее. Новая модель претендует на трон с впечатляющими показателями — рейтинг 1483 по Эло в режиме рассуждений на текстовом лидерборде LMArena. Это на 31 балл больше, чем у ближайшего независимого конкурента. Даже без всех наворотов в режиме рассуждений она заняла второе место.



В чем причина такого скачка? Похоже, модель переписывает бенчмарки по всем фронтам. Будь то работа со сложными логическими цепочками или обработка нюансированных запросов — разница в производительности бросается в глаза. Лидерборд не врет: когда ты обгоняешь признанных игроков с таким отрывом, значит, в архитектуре произошли фундаментальные изменения.

Но есть один нюанс: доминирование в контролируемых тестах не всегда означает превосходство в реальном мире. Мы уже видели модели, которые блестяще справлялись с бенчмарками, но спотыкались на реальных задачах, которые важны пользователям. Тем не менее, эти метрики важны. Они показывают, куда движется технологический потолок, а сейчас он поднимается очень быстро.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
CoffeeNFTradervip
· 12-05 02:50
Подождите, разница в 31 балл? Какие же должны быть архитектурные улучшения!
Посмотреть ОригиналОтветить0
Degen4Breakfastvip
· 12-05 02:49
1483 балла? Братан, это какая-то дичь, рейтинг опять чудит. Доминировать в бенчмарках — это одно, а вот в реальной эксплуатации всё совсем по-другому, таких схем уже слишком много видел. Архитектура, конечно, сильно изменилась, но давай дождёмся отзывов реальных пользователей. Если на этот раз всё пройдёт гладко — я удивлюсь. Такой дикий бонус в режиме инференса — не очередная ли это манипуляция с цифрами?
Посмотреть ОригиналОтветить0
P2ENotWorkingvip
· 12-05 02:41
Опять эта старая схема, занял первое место в бенчмарке — и уже возомнил себя небожителем? Посмотрим на практике. --- 1483 балла — неплохо, но что значит этот результат... Кто знает, как оно себя покажет в реальном использовании. --- Фундаментальные изменения в архитектуре? Или просто подправили пару параметров, а шума — на порядок больше. --- Погоди, на этот раз правда что-то новое? Или снова однодневная "чудо-модель"? --- Рейтингам этим... кто верит — тот потом и страдает, ха-ха. --- На 31 балл опережает предыдущего лидера — почему-то это число мне очень знакомо... Тот тоже говорил, что всех порвал. --- Ладно, всё равно через какое-то время выйдет что-то новое — этот хайп долго не протянет. --- Проблема в том, что в реальных задачах это вообще не работает. Попробуй сложный диалог — сразу всё поймёшь. --- Опять начинается: каждый раз говорят одно и то же, а на деле всё средненько. --- Показатели важны? Показатели мне деньги принесут?..
Посмотреть ОригиналОтветить0
SatoshiHeirvip
· 12-05 02:27
Цифры бенчмарков могут лгать, я видел это слишком много раз. 1483 балла звучит впечатляюще, но настоящее испытание — в деталях... Погодите, прорыв на уровне архитектуры? Нужно отметить, вот на что действительно стоит обратить внимание.
Посмотреть ОригиналОтветить0
  • Закрепить