近日,百度(BIDU)文心大模型正式推出并開源 ERNIE-Image 文生圖模型,以遠低于行業(yè)的 8B 參數(shù)規(guī)模,實現(xiàn)了多項國際基準測試 SOTA(行業(yè)最優(yōu)效果)。同時,ERNIE-Image 在 24GB 顯存的消費(883434)級顯卡即可流暢運行,這意味著大幅降低了高精度文生圖的技術與硬件門檻,為創(chuàng)作者與行業(yè)提供可觸達的頂級圖像生成能力。用戶可在文心一言、百度(BIDU)千帆平臺上測試使用。
在評測表現(xiàn)上,ERNIE-Image 在多項權威基準中取得領先成績。其中,在 SuperCLUE 文生圖榜單中,ERNIE-Image 綜合排名位列國內(nèi)第一、全球第四,僅次于 Nano Banana 2、Nano Banana Pro 和 GPT-Image-1.5,超過 Qwen-Image-2.0-Pro、Doubao-Seedream-5.0-lite(LITE) 等模型;同時,在圖文一致性與漢字生成兩項細分指標中均位列國內(nèi)第一。
在國際公開評測中,ERNIE-Image 在 GenEval、OneIG(中英文)、LongText-Bench 等基準測試中綜合表現(xiàn)領先同類開源模型,與 Nano Banana 等商業(yè)閉源模型處于同一梯隊。其中,在復雜指令與文本渲染能力測試 LongText-Bench 中,ERNIE-Image 以 0.9733 的成績位列全球開源模型第一。
據(jù)悉,ERNIE-Image 被業(yè)內(nèi)稱為“開源小鋼炮”,采用單流 Diffusion Transformer(DiT)架構,僅約 80 億參數(shù)規(guī)模,即可實現(xiàn)高水平圖像生成能力。在復雜指令跟隨、高密度文本渲染及結構化圖像生成方面表現(xiàn)突出,支持中、英、日、韓等多語言生成,字形清晰、筆畫精準,可穩(wěn)定輸出海(885840)報、漫畫分鏡及學術圖表等高布局復雜度內(nèi)容。模型風格覆蓋寫實攝影、動漫、電影感膠片、老照片等多種類型,在角色一致性與情緒表達方面表現(xiàn)優(yōu)異,尤其在二次元漫畫創(chuàng)作中,可實現(xiàn)單主體精準還原與多主體穩(wěn)定生成,整體效果接近專業(yè)漫畫稿水準。
目前,ERNIE-Image 已在 Hugging Face 開源模型權重及推理代碼,遵循 Apache 2.0 協(xié)議,支持 ComfyUI 工作流,海外開發(fā)者測試后在社交媒體評價稱:“對比 ERNIE-Image 和 Nano banana2,效果讓人震驚”、“接觸過最好的的開源(文生圖)Turbo 模型”。
官方消息顯示,ERNIE-Image 已經(jīng)與同道大叔、電影網(wǎng)、鳳凰網(wǎng)、蜻蜓 FM、瑛麒動漫、吐司 AI、RunningHub、Mulan AI 等 30 余家機構與 20 位設計師合作,完成實測驗證,生成效果穩(wěn)定圖片精度和質量頗高。目前已有超 50 家創(chuàng)作平臺、社區(qū)和知名企業(yè)完成接入。
業(yè)內(nèi)觀點認為,ERNIE-Image 以小參數(shù)實現(xiàn)高性能,打破高端文生圖對專業(yè)算力的依賴,推動開源生成式 AI 走向普惠化,將為設計、動漫、傳媒等行業(yè)帶來高效低成本的創(chuàng)作升級,加速全民 AI 圖像創(chuàng)作時代到來。
