通義萬相登頂權威榜單,全面超越國內外主流開閉源視頻生成模型
1 月 9 日消息,阿里云通義萬相迎來重磅升級,推出萬相 2.1 視頻生成模型,在大幅度復雜運動、物理規律遵循、藝術表現等方面全面提升。根據權威評測榜單 VBench 的信息顯示,新版通義萬相登上榜首位置,超越混元、海螺 AI、Gen3、Pika 等國內外視頻生成模型。
通義萬相登頂 VBench 榜單
VBench 是視頻生成領域的權威評測集,它一共有 16 個評分維度,從整體一致性、動作流暢度、畫面穩定性等方面對模型進行全方位評估。VBench 榜單顯示,通義萬相在運動幅度、多對象生成、空間關系等關鍵能力上拿下最高分,并以總分 84.7% 的成績斬獲第一。
精準理解和模擬物理世界是當下視頻生成模型的核心難題,現有模型生成的視頻在大幅運動、物理復雜場景表現較差,容易生成肢體扭曲、違背物理定律的視頻。針對這一難題,通義萬相團隊采用自研高效的 VAE 和 DiT 架構,有效增強時空上下文關系建模能力。
在 DiT 的設計中,全新通義萬相使用時空全注意機制,這一機制讓模型能夠更準確地模擬現實世界的復雜動態;團隊還引入了參數共享機制,不僅提升了模型的性能,還有效降低了訓練成本;此外,針對文本的嵌入進行優化,實現更優的文本可控性的同時也減少了計算需求。
在視頻 VAE 方面,通義萬相設計了一種創新的視頻編解碼方案。通過將視頻拆分成若干塊(Chunk)并緩存中間特征的方式,代替直接對長視頻的 E2E 編解碼過程,實現顯存的使用與原始視頻長度無關,從而能夠支持無限長 1080P 視頻的高效編解碼,這一關鍵技術為任意時長視頻的訓練提供了新的路徑。
在全新架構下,通義萬相在大幅度的肢體運動和肢體旋轉場景的視頻生成上表現更穩定,即便是花樣滑冰、游泳、跳水等運動視頻也能保持肢體協調并符合正常運動軌跡。通義萬相在文字視頻生成上實現了突破,成為首個支持中文文字生成能力、且同時支持中英文文字特效生成的視頻生成模型,可滿足廣告設計、短視頻等領域的創作需求。
例如,用戶輸入“平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服,腳踩白色的滑冰鞋,正在進行一個旋轉動作。她的手臂張開,身體向后傾斜,展現了她的技巧和優雅”,通義萬相即可精準理解語義,并生成一段接近專業滑冰運動員的視頻。
據悉,目前該模型已全面開放,用戶可在通義萬相官網直接免費使用,個人開發者和企業用戶還可在阿里云百煉調用通義萬相 API,進一步創造更豐富的 AI 工具和應用。
0人
- 每日推薦
- 股票頻道
- 要聞頻道
- 港股頻道
- 特朗普突發!又要引爆關稅核彈?
- 騰訊連續減持微盟集團和優必選套現16.7億港元,微盟集團回應
- AI芯片第一股上榜!胡潤發布中國AI企業50強,分屬五大細分領域
- 完成22單,金額逾446億元!并購重組,有這些看點
- 美聯儲會議紀要暗示將放慢降息腳步
- A股重要信號,密集出現
- 文遠知行:已正式啟動自動駕駛小巴在蘇黎世機場的測試運營
- CES引燃AI百鏡大戰:跨越AI到AR的鴻溝
- 1月9日晚間公告集錦:張家界稱與電廣傳媒簽署戰略合作框架協議