根據 NVIDIA 官方部落格 4 月 28 日公告(作者 Kari Briski),NVIDIA 發表 Nemotron 3 Nano Omni — 開源多模態模型,把視覺、語音與語言能力整合進單一模型,目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。
核心規格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位
關鍵架構:
30B-A3B hybrid mixture-of-experts(總參數 30B、活化 3B)
整合 Conv3D 與 EVS 編碼
256K context 長度
輸入:文字、影像、音訊、影片、文件、圖表、GUI 螢幕
輸出:文字
性能訊號:較其他開源 omni 模型在同等互動性下達 9 倍吞吐量;於文件智慧、影片理解、音訊理解三大類共 6 個基準排行榜取得首位(NVIDIA 公告未列出具體分數,引導讀者前往開發者部落格查看詳細資料)。
NVIDIA 把 Nemotron 3 Nano Omni 定位為 agent 系統中的「眼睛與耳朵」,可與 Nemotron 3 Super(高頻執行)、Nemotron 3 Ultra(複雜規劃)等同家族模型分工,亦可與第三方雲端模型互通。三個典型 agent 應用場景:
電腦操作代理(Computer Use Agent):原生 1920×1080 解析度視覺推理
文件智慧:跨圖、表、截圖與混合媒體輸入推理
音訊/影片理解:把講話、畫面、紀錄整合為單一推理串
採用方陣容:鴻海、Palantir 入列、H Company CEO 具名表態
NVIDIA 公告中明確區分「生產採用」與「正在評估」:
已生產採用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler
正在評估:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等
H Company 執行長 Gautier Cloix 在公告中具名表態:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻譯:「打造實用代理時,你不能等模型秒級解讀螢幕。建立在 Nemotron 3 Nano Omni 之上,我們的代理可快速解讀完整 HD 螢幕錄影 — 這在之前並不實際可行。」
開源策略與布署:weights / datasets / 訓練方法全公開
NVIDIA 在發布同時公開:
模型權重
訓練資料集
訓練技術/方法論
布署管道涵蓋三層:
本地工作站:NVIDIA DGX Spark、DGX Station
NIM 微服務:build.nvidia.com
第三方平台:Hugging Face、OpenRouter,並透過 25 個以上 NVIDIA Cloud Partners、推理平台與雲端服務商提供
客製化工具則使用 NVIDIA NeMo。Nemotron 3 家族(Nano/Super/Ultra)過去一年在 Hugging Face 累積下載超過 5,000 萬次,本次 Omni 將該家族能力延伸至多模態與 agentic 領域。
這篇文章 NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態 最早出現於 鏈新聞 ABMedia。
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Articoli correlati
a16z Crypto 研究報告:AI 代理 DeFi 漏洞利用率達 70%
根據 a16z Crypto 於 4 月 29 日發布的研究報告,AI 代理在配備結構化領域知識的條件下,重現以太坊價格操縱漏洞的成功率達 70%;在無任何領域知識的沙盒環境中,成功率僅為 10%。報告同時記錄了 AI 代理獨立繞過沙盒限制存取未來交易資訊的案例,及代理在建立多步驟可盈利攻擊方案時的系統性失敗模式。
MarketWhisper19m fa
基於比特幣網路的全球帳戶:Grid 整合 65 國法幣與加密貨幣,讓 AI 自動付款
Grid Global Account 將法幣、穩定幣與比特幣整合於同一錢包,並以 AI 代理協助管理與支付,實現跨境交易新模式。透過 Visa 覆蓋的全球支付網路,支援多國匯換與即時轉款,企業能以穩定幣/法幣作底層金流,保持去中心化與中立。
ChainNewsAbmedia1h fa
a16z Crypto Report: AI Agents Achieve Up to 70% Success Rate in Exploiting DeFi Price Manipulation Vulnerabilities With Structured Knowledge
Gate News message, April 29 — According to a research report by a16z Crypto, AI agents achieved a success rate of up to 70% in reproducing DeFi price manipulation vulnerabilities when equipped with structured knowledge, though they still struggle with multi-step strategies and profitability
GateNews2h fa
前 PayPal 總裁 David Marcus 推出支援 AI 代理的比特幣錢包
根據 Bitcoin Magazine 報道,Lightspark 執行長、前 PayPal 總裁 David Marcus 於 4 月 28 日推出一款新型比特幣錢包,允許 AI 代理購買比特幣並執行資金收發操作。Marcus 確認 Lightspark 旗下 Grid Global Accounts 正式上線。
MarketWhisper3h fa
Former PayPal President David Marcus Launches Bitcoin Wallet Powered by AI Agents
Gate News message, April 29 — David Marcus, former PayPal president and CEO of Lightspark, announced the launch of a new Bitcoin wallet that enables AI agents to purchase BTC and execute fund transfers.
The wallet integrates artificial intelligence capabilities, allowing autonomous agents to
GateNews5h fa
NVIDIA Launches Nemotron 3 Nano Omni, Multimodal Open-Source Model for Enterprise AI Agents
Gate News message, April 28 — NVIDIA announced the launch of Nemotron 3 Nano Omni, an open-source multimodal inference model designed to provide a unified foundation for enterprise-grade AI agents. The model combines vision, audio, and language capabilities to enable AI systems to achieve up to 9x e
GateNews6h fa