首頁 -> 內地

商湯推首個“可控”人物視頻大模型

分享到:
2024-07-04 21:58 | 稿件來源:香港新聞網

【字號:

香港新聞網7月4日電 2024世界人工智能大會(WAIC 2024)4日於上海揭幕,商湯科技推出首個向廣大用戶開放的可控人物視頻生成大模型Vimi,該模型更獲頒WAIC展覽展示最高榮譽“鎮館之寶”殊榮,成為本屆大會最具創新展品。Vimi基於商湯日日新大模型的強大能力,只需要一張任何風格的照片就能生成和目標動作一致的人物類短片,並支持多種驅動方式,可通過已有人物影片、動畫、聲音、文字等多種元素進行驅動。

Vimi 可通過一張照片生成人物短片

隨著大模型和生成式A 技術快速發展,讓照片中的人物動起來已不是新鮮事,但目前市面上相關產品的實際應用仍存在挑戰,包括:

• 人物動作、表情動作無法精準控制,只能頻繁嘗試各種Prompt。

• 效果不穩定,人物外貌、背景效果變幻莫測。

• 時長有限,只能生成3至4秒短片等,無法滿足廣大短片創作者的需要。

為解决這些實際應用問題,商湯可控人物視頻生成大模型Vimi應運而生。與圖片表情控制類技術只能控制面部表情動作不同,Vimi不但可以實現精準的人物表情控制,還可控制照片中人物上半身的自然肢體動作,並自動生成與人物相符的頭髮、服飾及背景變化。同時光影變化也能做到合理生成,讓人物動作和視覺效果流暢自然,畫面和諧唯美。更重要的是,Vimi具備極強的穩定性,可穩定生成長達1分鐘的單鏡頭人物類短片,畫面效果不會隨著時間變化而降低品質或失真,真正滿足娛樂互動等需要長時間穩定短片生成的需要。

Vimi將完全向廣大用戶開放使用。用戶只需上傳不同角度的高清人物照片,即可自動生成數字分身和不同風格的寫真短片。由Vimi生成的短片人物不再只是呆板的五官運動,而是搭配手勢、肢體動作、頭髮等,形成更完整的人物動作,讓創作者可基於生成的短片素材進行剪輯和二次創作。

針對喜愛自拍的用戶,Vimi支援聊天、唱歌、舞動等多種娛樂互動場景;對於熱衷表情包的用戶而言,Vimi通過單張圖片即可驅動生成各種具趣味的人物表情包,玩法多樣,實現創作自由。此外,Vimi亦提供唯美寫真風、奇幻風等多種生成風格,讓用戶仿佛穿越不同次元,享受富電影感的沉浸式視覺體驗。(完)

【編輯:李彥洲】

視頻

更 多
落馬洲河套區再添“新成員” 粵港澳大灣區國際臨床試驗所開幕
專訪香港廉政專員胡英明:打擊貪污對於國家安全非常重要
讓沙特企業來港上市 只需做一件事!港交所前行政總裁李小加提出建議
美國要搞“中國特色的美國資本主義”?李小加:大浪來時美國這艘船會先顛覆
50年廉署咖啡的新內涵 香港廉政專員親身上陣煮咖啡
國際問題專家:特朗普上台後對華制裁恐持續 但中美關係的未來不完全由美國決定
葉劉淑儀:外界要求“釋放黎智英”是對香港司法制度的粗暴干預