Xiaomi 發布可控視訊和音訊生成模型 ControlFoley

2026-05-29 IT Dept

本篇文章可能經由機器翻譯或第三方服務翻譯而成，為避免翻譯品質落差造成語意上的誤解，建議參閱原文章內容。由 AI 判讀的觀點不代表原文章之語意表達或事實之陳述，僅做為參考與研究之用。

Xiaomi 發布可控視訊和音訊生成模型 ControlFoley，這是一個統一且可控的多模態視訊到音訊 (V2A) 生成框架，它能夠使用視訊、文字和參考音訊對生成的音訊進行精確控制。與依賴單一模態或在相互衝突的輸入下難以應對的現有方法不同，ControlFoley 旨在處理複雜的多模態交互，即使在模態不一致的情況下也能保持強大的可控性。

ControlFoley 支援多種應用

文字-視訊-音訊產生 (TV2A): 在文字指導下，視訊內容自適應配音和同步音效產生
文字控制視訊轉音頻 (TC-V2A): 在視訊文字衝突的情況下產生音頻，語義與文字提示一致，時間上與視訊內容同步
音訊控制視訊轉音訊 (AC-V2A): 音訊產生以參考音訊為條件，音色與參考音訊一致，並在時間上與視訊內容同步
文字轉音訊產生 (T2A): 作為統一框架的附加功能，直接從文字提示產生音訊

主要創新

聯合視覺編碼實現穩健的多模態控制：結合 CLIP 和 CAV-MAE-ST 表示來捕捉視覺語言和視聽相關性，從而提高模態衝突下的穩健性。
以音色為中心的參考音訊控制：擷取全域音色表示，同時抑制時間線索，從而實現精確的聲學風格控制，而不影響同步。
採用統一對齊的模態穩健訓練：引入全模態丟棄和統一的 REPA 目標，以提高對不同模態組合的穩健性。
VGGSound-TVC 基準測試：一種評估視覺文字語意衝突下文字可控性的新基準測試。

ControlFoley 在多個 V2A 任務中都表現出色，展現出高生成品質和強大的可控性。

TV2A

CLAP 得分最高（語意對齊效果較好）
最低 DeSync（更好的時間同步）
最佳整體 IS（更好的音訊品質）——相對改進高達 27%（VGGSound 上的 22.08 對比 17.36）

TC-V2A

在各種衝突等級下保持較高的文字對齊度 (CLAP)
有效降低衝突下的內隱偏見（減少對視覺偏見的依賴）
在可控性和發電品質之間實現了更好的平衡

AC-V2A

更好的音色相似度（Resemblyzer）
更好的同步（DeSync）
更高的音訊品質（IS）

ControlFoley 也展現出與 Kling-Foley 等強大的專有系統相媲美或更優的性能，突顯了其作為開放且可控解決方案的有效性。

https://github.com/xiaomi-research/controlfoley

Picture Source
Xiaomi

需要登入

本篇文章為會員專屬內容，需要登入後才能觀看完整內文。

請透過連結登入會員中心。立即登入

功能列表

需要登入

Need Assistance?

Live Chat With