2025-12-05 02:21:43

Войны ИИ становятся все интереснее. Новая модель претендует на трон с впечатляющими показателями — рейтинг 1483 по Эло в режиме рассуждений на текстовом лидерборде LMArena. Это на 31 балл больше, чем у ближайшего независимого конкурента. Даже без всех наворотов в режиме рассуждений она заняла второе место.

В чем причина такого скачка? Похоже, модель переписывает бенчмарки по всем фронтам. Будь то работа со сложными логическими цепочками или обработка нюансированных запросов — разница в производительности бросается в глаза. Лидерборд не врет: когда ты обгоняешь признанных игроков с таким отрывом, значит, в архитектуре произошли фундаментальные изменения.

Но есть один нюанс: доминирование в контролируемых тестах не всегда означает превосходство в реальном мире. Мы уже видели модели, которые блестяще справлялись с бенчмарками, но спотыкались на реальных задачах, которые важны пользователям. Тем не менее, эти метрики важны. Они показывают, куда движется технологический потолок, а сейчас он поднимается очень быстро.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
4
Репост
Поделиться

комментарий

0/400

CoffeeNFTrader

· 12-05 02:50

Подождите, разница в 31 балл? Какие же должны быть архитектурные улучшения!

Посмотреть ОригиналОтветить0

Degen4Breakfast

· 12-05 02:49

1483 балла? Братан, это какая-то дичь, рейтинг опять чудит. Доминировать в бенчмарках — это одно, а вот в реальной эксплуатации всё совсем по-другому, таких схем уже слишком много видел. Архитектура, конечно, сильно изменилась, но давай дождёмся отзывов реальных пользователей. Если на этот раз всё пройдёт гладко — я удивлюсь. Такой дикий бонус в режиме инференса — не очередная ли это манипуляция с цифрами?

Посмотреть ОригиналОтветить0

P2ENotWorking

· 12-05 02:41

Опять эта старая схема, занял первое место в бенчмарке — и уже возомнил себя небожителем? Посмотрим на практике. --- 1483 балла — неплохо, но что значит этот результат... Кто знает, как оно себя покажет в реальном использовании. --- Фундаментальные изменения в архитектуре? Или просто подправили пару параметров, а шума — на порядок больше. --- Погоди, на этот раз правда что-то новое? Или снова однодневная "чудо-модель"? --- Рейтингам этим... кто верит — тот потом и страдает, ха-ха. --- На 31 балл опережает предыдущего лидера — почему-то это число мне очень знакомо... Тот тоже говорил, что всех порвал. --- Ладно, всё равно через какое-то время выйдет что-то новое — этот хайп долго не протянет. --- Проблема в том, что в реальных задачах это вообще не работает. Попробуй сложный диалог — сразу всё поймёшь. --- Опять начинается: каждый раз говорят одно и то же, а на деле всё средненько. --- Показатели важны? Показатели мне деньги принесут?..

Посмотреть ОригиналОтветить0

SatoshiHeir

· 12-05 02:27

Цифры бенчмарков могут лгать, я видел это слишком много раз. 1483 балла звучит впечатляюще, но настоящее испытание — в деталях... Погодите, прорыв на уровне архитектуры? Нужно отметить, вот на что действительно стоит обратить внимание.

Посмотреть ОригиналОтветить0

Популярные темыПодробнее
#JoinGrowthPointsDrawToWiniPhone17
279.34K Популярность
#DecemberMarketOutlook
74.43K Популярность
#PostonSquaretoEarn$50
11.44K Популярность
#LINKETFToLaunch
12.22K Популярность
#SharingMy100xToken
13.72K Популярность

Горячее на Gate FunПодробнее

1
FISTFIST TOKEN
РК:$3.52KДержатели:1
0.00%
2
LUCKYLUCKY TOKEN
РК:$3.53KДержатели:1
0.00%
3
MOONMoon
РК:$3.58KДержатели:1
0.82%
4
GGPGate Guys Penguin
РК:$3.5KДержатели:1
0.00%
5
GDGate Duck
РК:$3.75KДержатели:2
0.85%

Закрепить

Карта сайта