Війни ШІ стали ще цікавішими. Нова модель претендує на трон із вражаючими цифрами — рейтинг Elo 1483 у режимі міркування на текстовому лідерборді LMArena. Це на 31 бал більше за найближчого незалежного конкурента. Навіть без спеціальних можливостей для міркування вона зайняла друге місце.
Що спричинило цей стрибок? Схоже, модель переписує стандарти оцінювання на всіх фронтах. Чи то обробка складних логічних ланцюжків, чи робота з тонкими питаннями — різницю в продуктивності важко ігнорувати. Лідерборд не бреше — якщо ти випереджаєш визнаних гравців із таким відривом, у самій архітектурі відбулися фундаментальні зміни.
Але є нюанс: домінування у контрольованих тестах не завжди гарантує перевагу у реальному світі. Ми вже бачили, як моделі блискуче проходили тести, але спотикалися на випадках, які справді важливі для користувачів. Однак ці метрики мають значення. Вони показують, куди рухається технологічна межа, і зараз цей рух дуже стрімкий.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
4
Репост
Поділіться
Прокоментувати
0/400
CoffeeNFTrader
· 12-05 02:50
Зачекай, різниця в 31 хвилину? Це ж який масштабний архітектурний апгрейд має бути!
Переглянути оригіналвідповісти на0
Degen4Breakfast
· 12-05 02:49
1483 балів? Друже, це число просто неймовірне, рейтинг знову почав чудити.
Тестування продуктивності — це одне, а от реальне використання — зовсім інше, таких схем уже бачив забагато.
Зміни в архітектурі справді суттєві, але зачекаймо на реальний досвід користувачів.
Якщо цього разу не буде фейлу — я здивуюся.
Бонус у режимі інференсу такий перебільшений, знову, мабуть, граються з даними.
Переглянути оригіналвідповісти на0
P2ENotWorking
· 12-05 02:41
Знову ця стара схема, перше місце в бенчмарках — і вже хочуть до зірок? Давайте подивимось, як воно працює насправді.
---
1483 бали — це непогано, але що показує цей результат... Як воно буде в реальному використанні — хто знає.
---
Кардинальні зміни в архітектурі? Чи просто трохи параметри підкрутили, ажіотажу більше, ніж суті.
---
Стривайте, цього разу справді щось нове? Чи знову черговий «модель-чудо» на один день.
---
Рейтинги ці... хто вірить — той і програв, ха-ха-ха.
---
На 31 бал більше за попереднього лідера — це число таке знайоме... Той попередній теж казав, що всіх «знищує».
---
Та й байдуже, все одно скоро вийде щось нове, цей хайп довго не триватиме.
---
Проблема в тому, що у реальних сценаріях воно взагалі не працює. Спробуй вести складну розмову — сам побачиш.
---
Знову одне й те саме: кожного разу обіцяють, а коли доходить до справи — так собі.
---
Показники важливі? Від них я грошей зароблю?..
Переглянути оригіналвідповісти на0
SatoshiHeir
· 12-05 02:27
Цифри бенчмарків можуть брехати, я бачив це надто багато разів. 1483 бали звучить вражаюче, але справжнє випробування — це робота на межі можливостей...
Але зачекайте, прорив на рівні архітектури? Варто зауважити, що саме це є сигналом, на який слід звернути увагу.
Війни ШІ стали ще цікавішими. Нова модель претендує на трон із вражаючими цифрами — рейтинг Elo 1483 у режимі міркування на текстовому лідерборді LMArena. Це на 31 бал більше за найближчого незалежного конкурента. Навіть без спеціальних можливостей для міркування вона зайняла друге місце.
Що спричинило цей стрибок? Схоже, модель переписує стандарти оцінювання на всіх фронтах. Чи то обробка складних логічних ланцюжків, чи робота з тонкими питаннями — різницю в продуктивності важко ігнорувати. Лідерборд не бреше — якщо ти випереджаєш визнаних гравців із таким відривом, у самій архітектурі відбулися фундаментальні зміни.
Але є нюанс: домінування у контрольованих тестах не завжди гарантує перевагу у реальному світі. Ми вже бачили, як моделі блискуче проходили тести, але спотикалися на випадках, які справді важливі для користувачів. Однак ці метрики мають значення. Вони показують, куди рухається технологічна межа, і зараз цей рух дуже стрімкий.