字節跳動發布多模態原生影片/圖片處理模型 Lance

2026-05-23 IT Dept

本篇文章可能經由機器翻譯或第三方服務翻譯而成，為避免翻譯品質落差造成語意上的誤解，建議參閱原文章內容。由 AI 判讀的觀點不代表原文章之語意表達或事實之陳述，僅做為參考與研究之用。

字節跳動 (ByteDance Intelligent Creation Lab) 發布基於多任務協同的統一多模態建模 AI 模型 Lance，這是一個輕量級的原生統一多模態模型，支援在單一框架內進行影像和影片的理解、生成和編輯。

高效處理 30 億級資料：Lance 僅需 30 億個活動參數，即可在影像生成、影像編輯和影片生成基準測試中展現強勁性能。

從零開始訓練：Lance 採用分階段多工方案構建，並在 128 個 A100 GPU 的預算內完全從零開始訓練。

Lance 沒有依賴模型容量擴展或以文字-圖像為主導的設計，而是探索了一種透過協作式多任務訓練實現統一多模態建模的實用範式。它基於兩個核心原則：統一的上下文建模和解耦的能力路徑。

具體來說，Lance 從零開始訓練，並在共享的交錯多模態序列上採用雙流混合專家架構，從而實現聯合上下文學習，同時解耦理解和生成的路徑。字節跳動進一步引入了模態感知旋轉位置編碼，以減輕異質視覺標記之間的干擾並增強跨任務對齊。在訓練過程中，Lance 採用分階段的多任務訓練範式，具有面向能力的目標和自適應資料調度，以增強語義理解和視覺生成表現。

Lance 採用分階段的多任務訓練策略，在統一的任務框架內逐步發展和平衡多模態理解和生成能力。

此流程包含四個階段：PT 階段利用大規模配對資料建立基本的圖像/視訊理解和生成能力；CT 階段利用交錯的多任務資料擴展任務空間，並促進跨任務遷移；SFT 階段透過精心設計的監督學習，提升指令遵循能力、視覺保真度、編輯準確度和身份一致性；RL 階段則透過精心設計的獎勵進一步優化圖像生成。

目前釋出的 Demo 包含以下：

文字轉視頻
影片剪輯
多輪一致性編輯
智慧視訊生成
影片理解
文字轉圖像生成
圖像編輯
圖像理解

https://huggingface.co/bytedance-research/Lance

Picture Source
ByteDance Intelligent Creation Lab

需要登入

本篇文章為會員專屬內容，需要登入後才能觀看完整內文。

請透過連結登入會員中心。立即登入

功能列表

需要登入

Need Assistance?

Live Chat With