本報訊(記者李喬宇)
4月29日,商湯(K80020)集團股份有限公司(以下簡稱“商湯(K80020)”)正式發(fā)布并開源商湯(K80020)日日新SenseNovaU1系列原生理解生成統(tǒng)一模型(以下簡稱“SenseNovaU1系列模型”)。它基于商湯(K80020)于今年3月自主研發(fā)的NEO-unify架構(gòu),在單一模型架構(gòu)上統(tǒng)一了多模態(tài)理解、推理與生成。
NEO-unify架構(gòu)徹底摒棄了主流的拼接式,去除了視覺編碼器(VE)和變分自編碼器(VAE),重新構(gòu)建了統(tǒng)一的表征空間,并且深入融入每一層計算中,從而實現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。
SenseNovaU1系列模型能夠?qū)⒄Z言與視覺信息作為統(tǒng)一的復合體直接建模,實現(xiàn)語言和視覺信息的高效協(xié)同,讓理解與生成能力同步增強,在保留語義豐富度的同時,維持像素級的視覺保真度。
在邏輯推理與空間智能等方向上,SenseNovaU1系列模型能夠深度理解物理世界的復雜布局與精細關(guān)系;在未來,它還能為機器人提供具身大腦,實現(xiàn)在單一模型閉環(huán)內(nèi)完成從復雜環(huán)境感知、邏輯推演到精準任務執(zhí)行的全過程,為推動技術(shù)與產(chǎn)業(yè)發(fā)展提供重要基礎與關(guān)鍵引擎。
