摘要:4月29日,商湯(K80020)科技正式發(fā)布并開源日日新SenseNova U1系列原生多模態(tài)模型。
4月29日,商湯(K80020)科技正式發(fā)布并開源日日新SenseNova U1系列原生多模態(tài)模型,該模型基于今年3月商湯(K80020)自主研發(fā)的NEO-unify架構打造,在單一模型架構內(nèi)實現(xiàn)了多模態(tài)理解、推理與生成的原生統(tǒng)一,完成了從模態(tài)集成到原生統(tǒng)一的多模態(tài)ai(886062)范式跨越。
NEO-unify架構徹底摒棄了傳統(tǒng)多模態(tài)模型依賴的視覺編碼器與變分自編碼器,重新構建了端到端的統(tǒng)一表征空間,將語言與視覺信息作為統(tǒng)一復合體直接建模,讓理解與生成能力在同一套計算體系內(nèi)協(xié)同增強,既完整保留了語義豐富度,也實現(xiàn)了像素級的視覺保真度,從根源上解決了傳統(tǒng)拼接式架構信息流轉損耗、模態(tài)協(xié)同沖突的行業(yè)痛點。
本次同步開源的SenseNova U1lite(LITE)輕量系列,包含基于稠密骨干網(wǎng)絡的SenseNova-U1-8B-MoT、基于混合專家骨干網(wǎng)絡的SenseNova-U1-A3B-MoT兩款模型,相關權重與推理代碼已上線GitHub及Hugging Face平臺,配套技術報告也將于近期正式發(fā)布。
實測數(shù)據(jù)顯示,該系列模型在圖像理解、生成編輯、視覺推理等多項主流基準測試中,達到同量級開源模型的SOTA水平,即便8B參數(shù)量的輕量版本,綜合性能也可對標甚至超越部分大型商業(yè)閉源模型。在復雜信息圖生成等高難度任務中,模型展現(xiàn)出商業(yè)級的排版控制與文字渲染能力,同時推理響應速度較同性能競品具備顯著優(yōu)勢。
依托原生統(tǒng)一架構,SenseNova U1實現(xiàn)了業(yè)內(nèi)首創(chuàng)的單模型單次調(diào)用連續(xù)性圖文交錯生成,無需多模型串聯(lián)即可完成高風格一致性的連貫圖文創(chuàng)作,同時為具身智能、世界模型等前沿技術方向提供了核心底層支撐。商湯(K80020)方面表示,將持續(xù)迭代升級該系列模型,后續(xù)推出更大參數(shù)規(guī)模的版本,同時不斷完善開源生態(tài),與行業(yè)開發(fā)者共同探索原生統(tǒng)一多模態(tài)技術的落地路徑。
頭圖展現(xiàn)了SenseNova U1lite(LITE)的商業(yè)級復雜信息圖生成能力。由受訪者供圖
