2025-12-05 02:21:43

AI 大戰變得更加有趣了。一個新模型宣稱登頂，並在 LMArena 的文字排行榜上以推理模式創下 1483 Elo 分的驚人數字。這比它最近的非關聯競爭對手還高出 31 分。即使沒有推理相關的加成，它依然拿下了第 2 名的位置。

是什麼推動了這次飛躍？據說這個模型正在全面改寫各項基準測試。不論是處理複雜的邏輯鏈，還是解析細緻的查詢，這種效能差距都難以忽視。排行榜不會說謊——當你以這樣的幅度超越老牌選手時，說明架構上確實有了根本性的改變。

但問題來了：在可控測試中的霸主地位，不一定能轉化為現實世界的絕對優勢。我們過去也見過模型在基準測試中大放異彩，卻在用戶真正關心的邊緣案例上跌跟頭。不過，這些數據還是很重要。它們代表著技術上限的移動方向，而現在，這個上限正在迅速提升。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

8人點讚了這條動態

讚賞
8
4
轉發
分享

留言

0/400

CoffeeNFTrader

· 12-05 02:50

等等，31分的差距？這得有多大的架構改進啊

查看原文回復0

Degen4Breakfast

· 12-05 02:49

1483分？哥們這數字離譜了，排行榜又開始作假了基準測試碾壓是一回事，實際用起來又是另一回事，套路見過太多了架構變化確實猛，但等等看真實用戶體驗再說吧這波如果不翻車我就服了推理模式加成這麼誇張，是不是又在玩數據遊戲

查看原文回復0

P2ENotWorking

· 12-05 02:41

又是這套老把戲，基準測試第一就想上天？等真的用過再說 --- 1483分是不錯，但跑分能代表什麼...實際用起來怎樣誰知道 --- 架構根本性變化？還是就改了點參數罷了，炒作的成份更大 --- 等等，這次真的不一樣嗎？還是又是一個曇花一現的神模型 --- 排行榜這東西，誰信誰吃虧哈哈哈 --- 比上一個領先者高31分這數字怎麼這麼熟悉...之前那個也說自己輾壓 --- 算了，反正過陣子就有新的出來，這個熱度也維持不了多久 --- 問題是真實場景根本用不上，你試試複雜對話就知道了 --- 又來了，每次都說這樣，然後實際跑起來普普通通 --- 指標重要？指標能給我賺錢嗎...

查看原文回復0

Satoshi继承人

· 12-05 02:27

基準測試的數字會說謊，我見過太多了。1483分聽起來很唬人，但真正的考驗在邊角料... 等等，架構層面的突破？需要指出的是，這才是值得關注的信號。

查看原文回復0

熱門話題查看更多
#成長值抽獎贏iPhone17和精美週邊
27.98萬熱度
#十二月行情展望
7.54萬熱度
#廣場發帖領$50
1.18萬熱度
#LINKETF將上線
1.24萬熱度
#百倍幣種分享
1.41萬熱度

熱門 Gate Fun查看更多

1
FISTFIST TOKEN
市值:$3527.58持有人數:1
0.00%
2
LUCKYLUCKY TOKEN
市值:$3531.03持有人數:1
0.00%
3
MOONMoon
市值:$3585.23持有人數:1
0.82%
4
GGPGate Guys Penguin
市值:$3506.89持有人數:1
0.00%
5
GDGate Duck
市值:$3757.37持有人數:2
0.85%