Xiaomi 發布可控視訊和音訊生成模型 ControlFoley

Xiaomi 發布可控視訊和音訊生成模型 ControlFoley,這是一個統一且可控的多模態視訊到音訊 (V2A) 生成框架,它能夠使用視訊、文字和參考音訊對生成的音訊進行精確控制。

Xiaomi 發布可控視訊和音訊生成模型 ControlFoley,這是一個統一且可控的多模態視訊到音訊 (V2A) 生成框架,它能夠使用視訊、文字和參考音訊對生成的音訊進行精確控制。與依賴單一模態或在相互衝突的輸入下難以應對的現有方法不同,ControlFoley 旨在處理複雜的多模態交互,即使在模態不一致的情況下也能保持強大的可控性。

ControlFoley 支援多種應用

  • 文字-視訊-音訊產生 (TV2A): 在文字指導下,視訊內容自適應配音和同步音效產生
  • 文字控制視訊轉音頻 (TC-V2A): 在視訊文字衝突的情況下產生音頻,語義與文字提示一致,時間上與視訊內容同步
  • 音訊控制視訊轉音訊 (AC-V2A): 音訊產生以參考音訊為條件,音色與參考音訊一致,並在時間上與視訊內容同步
  • 文字轉音訊產生 (T2A): 作為統一框架的附加功能,直接從文字提示產生音訊

主要創新

  • 聯合視覺編碼實現穩健的多模態控制: 結合 CLIP 和 CAV-MAE-ST 表示來捕捉視覺語言和視聽相關性,從而提高模態衝突下的穩健性。
  • 以音色為中心的參考音訊控制: 擷取全域音色表示,同時抑制時間線索,從而實現精確的聲學風格控制,而不影響同步。
  • 採用統一對齊的模態穩健訓練: 引入全模態丟棄和統一的 REPA 目標,以提高對不同模態組合的穩健性。
  • VGGSound-TVC 基準測試: 一種評估視覺文字語意衝突下文字可控性的新基準測試。

ControlFoley 在多個 V2A 任務中都表現出色,展現出高生成品質和強大的可控性。

TV2A

  • CLAP 得分最高(語意對齊效果較好)
  • 最低 DeSync(更好的時間同步)
  • 最佳整體 IS(更好的音訊品質)——相對改進高達 27%(VGGSound 上的 22.08 對比 17.36)

TC-V2A

  • 在各種衝突等級下保持較高的文字對齊度 (CLAP)
  • 有效降低衝突下的內隱偏見(減少對視覺偏見的依賴)
  • 在可控性和發電品質之間實現了更好的平衡

AC-V2A

  • 更好的音色相似度(Resemblyzer)
  • 更好的同步(DeSync)
  • 更高的音訊品質(IS)

ControlFoley 也展現出與 Kling-Foley 等強大的專有系統相媲美或更優的性能,突顯了其作為開放且可控解決方案的有效性。

https://github.com/xiaomi-research/controlfoley

Picture Source
Xiaomi