今天,我們正式發(fā)布并開源商湯(K80020)日日新SenseNova U1 系列原生理解生成統(tǒng)一模型。
它基于商湯(K80020)于今年三月份自主研發(fā)的 NEO-unify架構(gòu),在單一模型架構(gòu)上統(tǒng)一了多模態(tài)理解、推理與生成。
NEO-unify架構(gòu)徹底摒棄了主流的拼接式,去除了視覺編碼器(VE)和變分自編碼器(VAE),重新構(gòu)建了統(tǒng)一的表征空間,并且深入融入每一層計算中,從而實現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。
SenseNova U1系列模型能夠?qū)⒄Z言與視覺信息作為統(tǒng)一的復合體直接建模,實現(xiàn)語言和視覺信息的高效協(xié)同,讓理解與生成能力同步增強,在保留語義豐富度的同時,維持像素級的視覺保真度。
在邏輯推理與空間智能等方向上,它能夠深度理解物理世界的復雜布局與精細關(guān)系;在未來,它還能為機器人提供具身大腦,實現(xiàn)在單一模型閉環(huán)內(nèi)完成從復雜環(huán)境感知、邏輯推演到精準任務(wù)執(zhí)行的全過程,為推動技術(shù)與產(chǎn)業(yè)發(fā)展提供重要基礎(chǔ)與關(guān)鍵引擎。
本次開源發(fā)布的是 SenseNova U1 的輕量版系列 SenseNova U1 lite(LITE)。它包含兩個不同規(guī)格的模型:
SenseNova-U1-8B-MoT:基于稠密骨干網(wǎng)絡(luò)
SenseNova-U1-A3B-MoT:基于混合專家(MoE) 骨干網(wǎng)絡(luò)
我們也將在近期公布詳實的技術(shù)報告。
極致高效,以小搏大:
開源SOTA,比肩商用
效率,是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢。
傳統(tǒng)多模態(tài)模型是把視覺編碼器和語言骨干通過適配器拼接在一起的。它像一個“說不同語言的人組成的工作組”:有人專門看圖,把圖像翻譯為語言,有人專門理解文字,進行推理,有人把結(jié)果再翻譯為設(shè)計指令,把圖畫出來。每完成一次任務(wù),信息都要在不同成員之間來回傳遞。這個過程雖然可行,但難免會有等待、誤解和信息損耗。為了彌補這些損耗,模型往往需要做得更大才能達到好的效果。
SenseNova U1 是基于統(tǒng)一表征空間構(gòu)建的,更像是一個從一開始就同時掌握多項技能的人。它不是先看懂圖像、再翻譯成文字、再交給另一個系統(tǒng)理解,而是在同一套“思考方式”里直接處理圖像、文字等不同信息。圖像和語言不再是兩套系統(tǒng)之間的接力,而是在同一個大腦中自然融合。
這樣帶來的好處是:信息流轉(zhuǎn)更快捷,理解更直接,生成更高效。模型不需要依賴單純堆大參數(shù)來彌補中間轉(zhuǎn)換的損耗,而是通過統(tǒng)一的內(nèi)部表征,把不同模態(tài)的信息以更緊湊、更高密度的方式組織起來。
簡單來說,傳統(tǒng)架構(gòu)像是“多人協(xié)作、層層轉(zhuǎn)述”;SenseNova U1 更像是“一個全能大腦,直接理解,直接表達”。少了中間轉(zhuǎn)譯,信息損耗更低,也能在相對更精簡的模型規(guī)模下,實現(xiàn)更強的多模態(tài)理解與生成能力。
實驗結(jié)果驗證了我們的想法。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中,SenseNova U1 lite(LITE)均達到同量級開源模型SOTA水平,為統(tǒng)一多模態(tài)理解與生成樹立了新的標桿。甚至僅憑8B-MoT的較小規(guī)格,就能達到甚至超越部分大型商業(yè)閉源模型,展現(xiàn)出全維度多領(lǐng)域的統(tǒng)治力。點擊可查看單圖↓
圖像理解基準
測試結(jié)果
圖像生成基準
測試結(jié)果
視覺推理基準
測試結(jié)果
以下兩組對比圖更直觀地展現(xiàn)了 SenseNova U1 lite(LITE) 在效率上的突出優(yōu)勢。在通用的圖像生成測試中(上圖),SenseNova U1 lite(LITE)不但在圖像生成質(zhì)量上比肩 Qwen-Image 2.0 Pro或 Seedream 4.5 等大型閉源模型,達到商業(yè)級水準,還在推理響應速度上有顯著優(yōu)勢。即使在極具挑戰(zhàn)性、開源模型一直做不好的復雜信息圖生成任務(wù)中(下圖),SenseNova U1 lite(LITE) 也表現(xiàn)出商業(yè)級的水準,對復雜信息圖的排版和文字有很強的控制力。
Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBenc
Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench
我們正在沿著當前的技術(shù)路徑繼續(xù) Scale,計劃在未來推出體量更大的模型。我們相信,基于高效的原生架構(gòu),可以以低得多的計算成本達到國際頂尖模型的水平。
業(yè)內(nèi)首創(chuàng):
連續(xù)性圖文創(chuàng)作輸出
憑借NEO-unify架構(gòu)的優(yōu)勢,SenseNova U1在業(yè)內(nèi)首個實現(xiàn)連續(xù)性的圖文創(chuàng)作輸出。并且只需要單次單模型調(diào)用,就能輸出更高質(zhì)量的作品,相比傳統(tǒng)范式,實現(xiàn)了效率的大幅提升。
SenseNova U1 所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號完整的保留上下文中,區(qū)別于過去只能利用多模型串聯(lián)勉強實現(xiàn),它的圖像間風格具備明顯的高一致性,能在統(tǒng)一表征空間進行高效連貫思考。
下面兩個案例中,SenseNova U1 通過連貫高保真度的圖文交錯思考輸出。
任務(wù)一:五分熟牛排做法:SenseNova U1 可以通過思考和規(guī)劃產(chǎn)生分步的過程,并且給每一步輸出對應的圖像展示。各個步驟的圖示表現(xiàn)出極高的一致性。
上下滑動查看更多,點擊可查看原圖
任務(wù)二:繪制一個鋼鐵(850106)俠圖案。它可以從掃描草稿出發(fā),逐步進行連續(xù)創(chuàng)作,最終做出一個完成度很高的圖像。每一步創(chuàng)作的過程對于前一步的結(jié)構(gòu)和細節(jié)都做了精準的保持 —— 一個統(tǒng)一表征的共享上下文在其中發(fā)揮了關(guān)鍵作用。
全網(wǎng)開源,即刻可用
開源部署
瀏覽海量樣例庫,獲取Prompt編寫指南,化繁為簡(繁雜文->有趣圖),讓您的Agent成為信息圖生成高手
在線體驗與接入
即將上線辦公小浣熊
我們相信,原生統(tǒng)一的多模態(tài)智能是通往 AGI 的必經(jīng)之路。未來,我們還將持續(xù)推動開源生態(tài)建設(shè),并發(fā)布更大參數(shù)規(guī)模的 U1 系列模型。迎社區(qū)廣大用戶和開發(fā)者提出寶貴建議,共同定義智能交互的未來。
