Войны ИИ становятся все интереснее. Новая модель претендует на трон с впечатляющими показателями — рейтинг 1483 по Эло в режиме рассуждений на текстовом лидерборде LMArena. Это на 31 балл больше, чем у ближайшего независимого конкурента. Даже без всех наворотов в режиме рассуждений она заняла второе место.
В чем причина такого скачка? Похоже, модель переписывает бенчмарки по всем фронтам. Будь то работа со сложными логическими цепочками или обработка нюансированных запросов — разница в производительности бросается в глаза. Лидерборд не врет: когда ты обгоняешь признанных игроков с таким отрывом, значит, в архитектуре произошли фундаментальные изменения.
Но есть один нюанс: доминирование в контролируемых тестах не всегда означает превосходство в реальном мире. Мы уже видели модели, которые блестяще справлялись с бенчмарками, но спотыкались на реальных задачах, которые важны пользователям. Тем не менее, эти метрики важны. Они показывают, куда движется технологический потолок, а сейчас он поднимается очень быстро.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
8 Лайков
Награда
8
4
Репост
Поделиться
комментарий
0/400
CoffeeNFTrader
· 12-05 02:50
Подождите, разница в 31 балл? Какие же должны быть архитектурные улучшения!
Посмотреть ОригиналОтветить0
Degen4Breakfast
· 12-05 02:49
1483 балла? Братан, это какая-то дичь, рейтинг опять чудит.
Доминировать в бенчмарках — это одно, а вот в реальной эксплуатации всё совсем по-другому, таких схем уже слишком много видел.
Архитектура, конечно, сильно изменилась, но давай дождёмся отзывов реальных пользователей.
Если на этот раз всё пройдёт гладко — я удивлюсь.
Такой дикий бонус в режиме инференса — не очередная ли это манипуляция с цифрами?
Посмотреть ОригиналОтветить0
P2ENotWorking
· 12-05 02:41
Опять эта старая схема, занял первое место в бенчмарке — и уже возомнил себя небожителем? Посмотрим на практике.
---
1483 балла — неплохо, но что значит этот результат... Кто знает, как оно себя покажет в реальном использовании.
---
Фундаментальные изменения в архитектуре? Или просто подправили пару параметров, а шума — на порядок больше.
---
Погоди, на этот раз правда что-то новое? Или снова однодневная "чудо-модель"?
---
Рейтингам этим... кто верит — тот потом и страдает, ха-ха.
---
На 31 балл опережает предыдущего лидера — почему-то это число мне очень знакомо... Тот тоже говорил, что всех порвал.
---
Ладно, всё равно через какое-то время выйдет что-то новое — этот хайп долго не протянет.
---
Проблема в том, что в реальных задачах это вообще не работает. Попробуй сложный диалог — сразу всё поймёшь.
---
Опять начинается: каждый раз говорят одно и то же, а на деле всё средненько.
---
Показатели важны? Показатели мне деньги принесут?..
Посмотреть ОригиналОтветить0
SatoshiHeir
· 12-05 02:27
Цифры бенчмарков могут лгать, я видел это слишком много раз. 1483 балла звучит впечатляюще, но настоящее испытание — в деталях...
Погодите, прорыв на уровне архитектуры? Нужно отметить, вот на что действительно стоит обратить внимание.
Войны ИИ становятся все интереснее. Новая модель претендует на трон с впечатляющими показателями — рейтинг 1483 по Эло в режиме рассуждений на текстовом лидерборде LMArena. Это на 31 балл больше, чем у ближайшего независимого конкурента. Даже без всех наворотов в режиме рассуждений она заняла второе место.
В чем причина такого скачка? Похоже, модель переписывает бенчмарки по всем фронтам. Будь то работа со сложными логическими цепочками или обработка нюансированных запросов — разница в производительности бросается в глаза. Лидерборд не врет: когда ты обгоняешь признанных игроков с таким отрывом, значит, в архитектуре произошли фундаментальные изменения.
Но есть один нюанс: доминирование в контролируемых тестах не всегда означает превосходство в реальном мире. Мы уже видели модели, которые блестяще справлялись с бенчмарками, но спотыкались на реальных задачах, которые важны пользователям. Тем не менее, эти метрики важны. Они показывают, куда движется технологический потолок, а сейчас он поднимается очень быстро.