IT之家 4 月 29 日消息,當(dāng)?shù)貢r(shí)間 4 月 28 日,英偉達(dá)(NVDA)宣布推出名為 Nemotron 3 Nano Omni 的開(kāi)源全模態(tài)推理模型,旨在為企業(yè)級(jí) AI Agent 提供一體化基礎(chǔ)模型底座。
據(jù)介紹,這是一款將視頻、音頻、圖像和文本的統(tǒng)一多模態(tài)推理集成于單個(gè)高效開(kāi)放模型中的產(chǎn)品。該模型旨在替代智能體系統(tǒng)中常見(jiàn)的碎片化視覺(jué)-語(yǔ)音-語(yǔ)言模型鏈,從而減少推理跳數(shù)與編排復(fù)雜度,降低推理成本,同時(shí)增強(qiáng)跨模態(tài)上下文一致性。
Nemotron 3 Nano Omni 可在智能體系統(tǒng)中充當(dāng)多模態(tài)感知與上下文子 Agent,使智能體能夠在單個(gè)共享的“感知-行動(dòng)”循環(huán)中處理視覺(jué)、音頻和文本輸入,提升收斂速度,降低編排復(fù)雜度和推理成本。
在文檔智能榜單(如 MMlongbench-Doc 和 OCRBenchV2)上,該模型取得了同類領(lǐng)先的準(zhǔn)確率;同時(shí)在視頻與音頻理解基準(zhǔn)(WorldSense、DailyOmni、VoiceBench)中也表現(xiàn)優(yōu)異。
行業(yè)基準(zhǔn) MediaPerf(基于真實(shí)媒體數(shù)據(jù)和生成任務(wù)評(píng)估視頻理解模型的性能、成本和吞吐量)顯示,Nemotron 3 Nano Omni 在所有任務(wù)上實(shí)現(xiàn)了最高吞吐量,且視頻級(jí)標(biāo)注的推理成本最低。
▲ 在固定的用戶交互閾值下,各模型所能維持的總系統(tǒng)吞吐量
該模型基于 30B A3B 混合專家(MoE)架構(gòu),可根據(jù)任務(wù)和模態(tài)進(jìn)行激活,實(shí)現(xiàn)高吞吐量與可擴(kuò)展的多模態(tài)性能。IT之家注意到,其模型權(quán)重、數(shù)據(jù)集和訓(xùn)練配方完全開(kāi)放,開(kāi)發(fā)者可在本地、云端或企業(yè)環(huán)境中定制、部署和集成多模態(tài)子 Agent。
英偉達(dá)(NVDA)表示,在固定交互延遲閾值下,Nemotron 3 Nano Omni 在視頻推理任務(wù)中可持續(xù)提供更高的聚合吞吐量,相比其他開(kāi)放式全模態(tài)模型有效系統(tǒng)容量最高提升約 9.2 倍;在多文檔推理任務(wù)中,有效系統(tǒng)容量最高提升約 7.4 倍。在 Blackwell GPU 上采用 NVFP4 量化時(shí),該模型在處理復(fù)雜文檔、長(zhǎng)時(shí)推理和大批量視頻的企業(yè)級(jí)工作負(fù)載中,吞吐量在開(kāi)放式全模態(tài)模型中居于領(lǐng)先。
架構(gòu)設(shè)計(jì)方面,Nemotron 3 Nano Omni 核心為混合 MoE,結(jié)合 Mamba 層(提升序列與內(nèi)存效率)和 Transformer 層(實(shí)現(xiàn)精準(zhǔn)推理),內(nèi)存和計(jì)算效率最高可提升 4 倍。
視覺(jué)處理方面,它采用 3D 卷積捕捉幀間運(yùn)動(dòng),推理時(shí)通過(guò)高效視頻采樣層將高密度視覺(jué) token 壓縮為 LLM 可處理的精簡(jiǎn)集合;音頻部分則基于 NVIDIA Parakeet 編碼器與專用數(shù)據(jù)集;文本部分以強(qiáng)大的文本模型作為中心解碼器,保留基礎(chǔ)模型的語(yǔ)言能力;視覺(jué)編碼采用 C-RADIOv4-H,支持高分辨率圖像與 OCR 精度。
其訓(xùn)練方法涵蓋適配器與編碼器訓(xùn)練(約 1270 億跨模態(tài) token)、多階段監(jiān)督微調(diào)及后監(jiān)督強(qiáng)化學(xué)習(xí)(超過(guò) 230 萬(wàn)次環(huán)境 rollout)。該模型權(quán)重已在 Hugging Face 上提供,并即將作為 NVIDIA NIM 微服務(wù)上線。英偉達(dá)(NVDA)還開(kāi)放了完整的端到端訓(xùn)練與評(píng)估配方、部署指南、微調(diào)食譜以及開(kāi)放數(shù)據(jù)集。
