剛剛,阿里巴巴(BABA)視頻生成模型HappyHorse 1.0正式開啟灰測。
該模型采用原生多模態(tài)架構(gòu),實現(xiàn)了音視頻聯(lián)合生成。它不僅支持文生視頻(886068)、圖生視頻等多種創(chuàng)作方式,還具備靈活的后期編輯能力。依托1080P超分輸出與15秒多鏡頭敘事技術(shù),HappyHorse 1.0在畫面質(zhì)感、人物真實感及內(nèi)容可控性上表現(xiàn)出色。
無論是廣告電商、短劇創(chuàng)作還是社媒創(chuàng)意,HappyHorse 1.0都能提供從生成到編輯的一站式支持,讓創(chuàng)意表達(dá)更加高效、精準(zhǔn)。
HappyHorse視頻生成定價720P 0.9元/秒、1080P 1.6元/秒。HappyHorse官網(wǎng)會員包月疊加限時折扣后低至720P 0.44元/秒、1080P 0.78元/秒;API服務(wù)可通過阿里(BABA)云百煉直接調(diào)用。
# 核心亮點
作為視頻生成領(lǐng)域的新人,HappyHorse 1.0主要在畫面質(zhì)感與光影效果、運鏡與轉(zhuǎn)場流暢度、面部/人物真實感等方面有著優(yōu)秀表現(xiàn)。
// 電影級畫面質(zhì)感與光影表現(xiàn)
無論是人物膚質(zhì)、發(fā)絲細(xì)節(jié),還是金屬反光、煙霧水霧等自然元素,HappyHorse均能呈現(xiàn)高度真實的視覺質(zhì)感。畫面精細(xì)度與成片質(zhì)感多次獲得用戶高評價。
T2V提示詞:A cinematic script scene set in a sun-drenched Parisian café, golden afternoon light spilling through arched windows. A sharp-dressed man in a tailored navy suit sits across from an elegant woman in a flowing crimson dress, half-empty coffee cups between them. The air is thick with unspoken tension. He leans forward, voice low and steady: "You knew from the beginning, didn't you? That none of this was real." She holds his gaze without flinching, a ghost of a smile on her lips, slowly stirring her coffee: "Everything was real. That's exactly what makes it so dangerous." Cinematic wide-angle composition, warm golden hour lighting, shallow depth of field, film grain texture, muted vintage color palette with deep crimson accents, highly detailed wardrobe and facial expressions, noir romantic aesthetic, emotionally charged atmosphere, European street photography style, dramatic storytelling, 35mm film look.
// 流暢穩(wěn)定的運鏡與轉(zhuǎn)場能力
模型在鏡頭運動的連貫性和轉(zhuǎn)場的自然度上表現(xiàn)優(yōu)秀,支持拉近、拉遠(yuǎn)、景深變換等多種運鏡方式,過渡絲滑,色調(diào)與環(huán)境融合連貫,能較好地遵循prompt中的鏡頭語言指令。
T2V提示詞:紐約城市景觀·超現(xiàn)實主義FPV一鏡到底鏡頭腳本。鏡頭從緊貼地面的極低角度猛然彈射而出,沿清晨無人的曼哈頓街頭疾速貼地飛行。兩側(cè)褐石建筑、紅磚樓宇化作流動色塊,柏油路面的裂縫折射晨光,偶爾掠過的鑄鐵護(hù)欄、街頭消防栓留下模糊殘影。攝像機(jī)保持離地30厘米,每秒數(shù)米沖刺,輕微橫向搖擺模擬手持呼吸感,懸鈴木枝葉間隙的晨光形成連續(xù)光斑掃掠,落在復(fù)古的金屬門牌號上。接近街角Bagel店時,鏡頭減速滑行、緩緩抬升,以弧線繞過第一張金屬折疊桌,不銹鋼面包籃的紋路掠過畫面邊緣。推進(jìn)至Bagel店攤位深處,運動轉(zhuǎn)為慢動作凝滯,以毫米級速度爬行,圍繞懸浮的水流形成的文字 “HappyHorse 1.0”、冰美式咖啡、《紐約郵報》、Bagel面包等物品。鏡頭推至文字前方 15 厘米處靜止凝視,液態(tài)文字微微涌動。瞬間,文字爆裂成無數(shù)水珠,攝像機(jī)被氣浪猛推,急速后拉并向下俯沖,軌跡呈劇烈J形轉(zhuǎn)折。鏡頭以自由落體砸向地面,觸地前一幀再次突變,貼地超低空滑行,視角側(cè)傾近 90度,右側(cè)紅磚建筑立面垂直聳立,街頭黃色出租車的輪胎在視野邊緣飛速后退。滑行兩秒后,鏡頭向上彈射,沿曼哈頓摩天大樓(帝國大廈旁)外墻垂直爬升,仰角從水平轉(zhuǎn)為垂直向上,玻璃幕墻反射的晨光形成連續(xù)光帶,映出遠(yuǎn)處自由女神像的剪影。爬升至屋頂高度,外翻越過天臺圍欄,空中完成180 度軸向翻轉(zhuǎn),從仰望天空轉(zhuǎn)為俯視深淵,沿世貿(mào)中心雙子塔遺址周邊高樓間的狹窄天井垂直下墜。下墜初始速度適中,鏡頭朝下穩(wěn)定俯拍,天井四壁如方形畫框向中心收縮,下方第五大道的車流化作彩色光軌。速度逐漸加快,鏡頭加入左右擺動,時而貼近布魯克(BRKR)林紅磚建筑擦過復(fù)古空調(diào)(884113)外機(jī),時而擺向?qū)懽謽腔炷翙M梁,軌跡呈失控螺旋下墜。每經(jīng)過一層平臺,鏡頭隨機(jī)偏轉(zhuǎn),仿佛被氣流撞擊,在狹窄空間中不斷反彈、修正、偏離,偶爾掠過懸掛的霓虹招牌與街頭涂鴉。下墜至中段,光線急劇衰減,虛擬暗光增強(qiáng)捕捉到老舊樓宇剝落的墻面、銹蝕的消防管道、雜亂的電纜。鏡頭開始沿光軸 360 度連續(xù)翻滾,天井四壁(一邊是現(xiàn)代玻璃幕墻,一邊是布魯克(BRKR)林紅磚墻)化作旋轉(zhuǎn)的紅與銀的漩渦,偶爾閃現(xiàn)的Bagel店暖光、街頭路燈如深淵中的孤島。接近底部最后十米,速度極限,旋轉(zhuǎn)平息,鏡頭重新垂直俯沖。即將撞擊地面的瞬間,穿透無形鏡面,重力方向倒置—從向下俯沖無縫切換為向上浮升,軌跡呈現(xiàn)莫比烏斯環(huán)式轉(zhuǎn)折。進(jìn)入鏡像世界,鏡頭保持向前慣性,在倒置的紐約上空水平滑行。布魯克(BRKR)林褐石屋、曼哈頓公寓屋頂群在腳下綿延至天際線,天空被踩在上方,兩名倒懸的街頭咖啡師(手持咖啡壺、吆喝聲仿佛從天際傳來)緩緩飄過。鏡頭優(yōu)雅穿梭于漂浮的紙杯咖啡、牛皮紙袋與Bagel之間,做小幅升降起伏,圍繞玻璃球緩慢橢圓運動,最終平穩(wěn)直線推進(jìn),緩緩貼近玻璃球表面—球體中倒映的無限遞歸城市景觀(第五大道、帝國大廈、布魯克(BRKR)林大橋交織)逐漸填滿畫面,速度降至每秒不足一厘米,在絕對靜止中淡出至純白。
I2V提示詞:跳舞,轉(zhuǎn)了一圈后,從卡通變成現(xiàn)實場景。
// 人物真實感強(qiáng),面部表情有生命力
在人物面部細(xì)節(jié)的渲染上,HappyHorse實現(xiàn)了重要突破。五官比例協(xié)調(diào)、面部輪廓自然、表情生動不僵硬,已基本擺脫傳統(tǒng)AI生成視頻中常見的“一眼假”感,在真人劇、口播、社媒等人物密集場景中表現(xiàn)亮眼。
T2V提示詞:【場景】冷白燈光打下的審訊室,金屬桌面反光,煙灰缸里還有未熄的煙。 【主體】左側(cè)【老刑警】西裝褶皺,眼袋深重,手指慢慢敲著桌面;右側(cè)【嫌疑人】雙臂交叉,眼神游移,嘴角帶著一絲不易察覺的輕蔑。 【運動】老刑警將一張照片緩緩?fù)七^桌面,嫌疑人眼神微微一頓又迅速移開;鏡頭低角度平推,捕捉兩人手部與表情的細(xì)微對峙。 【音頻】[老刑警,語速極慢,每個字像釘子]:"你知道我做這行多少年了嗎。" [短暫沉默,煙灰缸上的煙細(xì)細(xì)飄散] [嫌疑人,輕飄飄,刻意漫不經(jīng)心]:"跟我有關(guān)系嗎。" [老刑警,不抬頭,嘴角微動]:"有。因為我從沒輸過。"
// 中近景敘事能力突出
T2V提示詞:清晨的山林小路上,鏡頭緩慢推進(jìn),一雙鞋踩在略微潮濕的泥土和落葉上,發(fā)出輕微而清脆的“沙沙”聲。周圍只有微風(fēng)吹過樹葉的“簌簌”聲,偶爾傳來幾聲清脆的鳥鳴,遠(yuǎn)處還能聽到溪水流動的細(xì)小水聲。整段畫面強(qiáng)調(diào)山林環(huán)境的安靜、濕潤和自然回響,環(huán)境音真實細(xì)膩。
// 靈活多樣的創(chuàng)作體驗
T2V提示詞:請給我生成一段邵氏風(fēng)格喜劇電影,歐美男士說中文,中國男人說英文。
HappyHorse也在持續(xù)進(jìn)化,將持續(xù)提升生成視頻的質(zhì)量和表現(xiàn)力。
# 優(yōu)勢場景
HappyHorse 1.0在電商內(nèi)容生產(chǎn)場景產(chǎn)品展示類視頻,圖生視頻(I2V)的還原度高、成片質(zhì)感優(yōu);在口播場景中,人物形象自然、指令遵循度高、畫面構(gòu)圖整體視頻質(zhì)量獲得較高的認(rèn)可度。適用于產(chǎn)品廣告、口播Vlog、電商創(chuàng)意展示等子場景。圖生視頻還原度高,適合電商素材的批量創(chuàng)意生產(chǎn)。
// 影視短劇制作
短劇制作是HappyHorse表現(xiàn)最為密集的場景之一。模型在仿真人劇的情感表演細(xì)節(jié)、光影氛圍營造、角色一致性維持等方面均展現(xiàn)出較強(qiáng)能力,在海外真人劇場景中的面部質(zhì)感也表現(xiàn)優(yōu)秀。
I2V提示詞:A boy and the rusty Robot(LAWR) stand under the cool glow of the full moon, gently holding hands with a deep bond; a tight close-up captures the boy looking sincere and kind, his lips moving softly to whisper, "we are friends"; the Robot(LAWR)'s luminous eyes flicker and pulse as it processes the message, responding in a stuttering, mechanical electronic voice, "we... are, we... are friends"; hearing this, the boy's expression lights up with pure joy, and he reaches out his hand to kindly stroke and pat the Robot(LAWR)'s weathered metal head; the camera pulls back to a wide shot.
I2V提示詞:Cinematic western standoff. A sun-bleached desert outpost with wind whistling through cracked, weather-beaten wooden slats. Two cowboys stand in a tense, physical confrontation, facing each other with hands hovering tensely over their holsters. In the far distance, dust devils dance across the shimmering, heat-distorted horizon. Extreme close-ups capture the sweat on their brows, the grit of their skin, and the subtle, rhythmic trembling of their fingers near the gun belts. The dialogue plays out in the tension: The older cowboy spits on the ground, 'You kept your word.' The younger one replies sharply, 'I kept my promise.' The older man narrows his eyes, 'The price is too high.' The younger one looks him straight in the eye, 'It’s my price to pay.' The older man exhales, 'Then draw.' The younger one whispers, 'As you wish.' The aesthetic is gritty and Leone-Inspired(INSE), featuring sharp high-contrast visuals, a palette of sepia and burnt orange, deep dramatic shadows, 35mm film grain, and a heavy, thick atmosphere of impending violence.
// 社媒創(chuàng)意視頻
HappyHorse擅長生成具有高傳播力的視覺內(nèi)容。無論是產(chǎn)品種草、品牌故事、熱點借勢還是達(dá)人混剪,模型均能快速產(chǎn)出畫面精良、節(jié)奏緊湊的短視頻素材,幫助創(chuàng)作者降低制作門檻、提升內(nèi)容吸引力與分發(fā)效率。
I2V提示詞:菠蘿擺了幾個可愛的pose,然后用河南話說:老鄉(xiāng),你吃飯了沒,要不要吃美味的大菠蘿。
// 國際化與出海場景
HappyHorse在海外內(nèi)容創(chuàng)作場景中已初步驗證,在真人劇面部質(zhì)感、人物表情自然度、空鏡與慢動作光影表現(xiàn)等方面均獲得正面反饋,具備服務(wù)全球化內(nèi)容生產(chǎn)的基礎(chǔ)能力。
T2V提示詞:【場景】奢華的私人飛機(jī)機(jī)艙內(nèi),窗外是壯麗的金紅色的云海落日,陽光將機(jī)艙渲染成琥珀色?!局黧w】左側(cè)滿頭銀發(fā)的 [ 年長男性 ] 身穿高定西裝,手持威士忌酒杯,目光如鷹般銳利;右側(cè)的 [ 年輕男性 ] 身體微微前傾,眉頭微皺,神情既緊張又充滿野心?!具\動】年長男性輕輕晃動著手中的酒杯,液體掛壁,他身體逼近對方;年輕男性深吸一口氣,眼神堅定地回視。鏡頭緩慢側(cè)推,聚焦兩人之間緊繃的張力。【音頻】[ 年長男性, 低沉沙啞, 充滿威嚴(yán) ] 說道:“In this world, you either hunt or you become the prey. Which one are you?” [ 年輕男性, 嗓音緊繃但堅定 ] 回答:“I am the one(STKS) who pulls the trigger.” 背景伴隨著飛機(jī)引擎深沉的轟鳴聲和冰塊撞擊玻璃杯的清脆聲。
