字節跳動發布多模態原生影片/圖片處理模型 Lance

字節跳動 (ByteDance Intelligent Creation Lab) 發布基於多任務協同的統一多模態建模 AI 模型 Lance,這是一個輕量級的原生統一多模態模型,支援在單一框架內進行影像和影片的理解、生成和編輯。

字節跳動 (ByteDance Intelligent Creation Lab) 發布基於多任務協同的統一多模態建模 AI 模型 Lance,這是一個輕量級的原生統一多模態模型,支援在單一框架內進行影像和影片的理解、生成和編輯。

高效處理 30 億級資料:Lance 僅需 30 億個活動參數,即可在影像生成、影像編輯和影片生成基準測試中展現強勁性能。

從零開始訓練:Lance 採用分階段多工方案構建,並在 128 個 A100 GPU 的預算內完全從零開始訓練。

Lance 沒有依賴模型容量擴展或以文字-圖像為主導的設計,而是探索了一種透過協作式多任務訓練實現統一多模態建模的實用範式。它基於兩個核心原則:統一的上下文建模和解耦的能力路徑。

具體來說,Lance 從零開始訓練,並在共享的交錯多模態序列上採用雙流混合專家架構,從而實現聯合上下文學習,同時解耦理解和生成的路徑。字節跳動進一步引入了模態感知旋轉位置編碼,以減輕異質視覺標記之間的干擾並增強跨任務對齊。在訓練過程中,Lance 採用分階段的多任務訓練範式,具有面向能力的目標和自適應資料調度,以增強語義理解和視覺生成表現。

Lance 採用分階段的多任務訓練策略,在統一的任務框架內逐步發展和平衡多模態理解和生成能力。

此流程包含四個階段:PT 階段利用大規模配對資料建立基本的圖像/視訊理解和生成能力;CT 階段利用交錯的多任務資料擴展任務空間,並促進跨任務遷移;SFT 階段透過精心設計的監督學習,提升指令遵循能力、視覺保真度、編輯準確度和身份一致性;RL 階段則透過精心設計的獎勵進一步優化圖像生成。

目前釋出的 Demo 包含以下:

  • 文字轉視頻
  • 影片剪輯
  • 多輪一致性編輯
  • 智慧視訊生成
  • 影片理解
  • 文字轉圖像生成
  • 圖像編輯
  • 圖像理解

https://huggingface.co/bytedance-research/Lance

Picture Source
ByteDance Intelligent Creation Lab