DeepMind 發布 4D AI 模型 - D4RT

Google DeepMind 團隊發布 D4RT (Dynamic 4D Reconstruction and Tracking) AI 模型,這是一種新的 AI 模型,突破 AI 對原有場景感知限制,它將動態場景重建統一到一個高效的框架中,使其可理解 3D 和 4D。

Google DeepMind 團隊發布 D4RT (Dynamic 4D Reconstruction and Tracking) AI 模型,這是一種新的 AI 模型,突破 AI 對原有場景感知限制,它將動態場景重建統一到一個高效的框架中,使其可理解 3D 和 4D。

D4RT 結合了強大的編碼器和輕量級解碼器。編碼器能夠建構豐富的全域視訊理解,解碼器則可並行處理數千個查詢。透過提出具體問題——例如,在目標時間和攝影機視角下識別來源像素的位置——該模型能夠透過單一靈活的介面來高效地解決追蹤、深度估計和姿態估計等各種任務。

D4RT 可處理以下問題:

  • 點追蹤:D4RT 透過查詢像素在不同時間步長中的位置,可以預測其 3D 軌跡。重要的是,即使物體在影片的其他畫面中不可見,模型也能做出預測。
  • 點雲重建:透過凍結時間和相機視角,D4RT 可以直接產生場景的完整 3D 結構,無需額外的步驟,例如單獨的相機估計或逐個影片的迭代優化。
  • 相機姿態估計:透過產生和對齊來自不同視角的同一時刻的 3D 快照,D4RT 可以輕鬆恢復相機的軌跡。

D4RT 的高精度並未以犧牲效率為代價。測試表明,它的速度比之前最先進的技術快 18 倍到 300 倍。例如,D4RT 在單一 TPU 晶片上處理一段一分鐘的影片僅需約五秒鐘。而之前最先進的方法完成同樣的任務可能需要長達十分鐘——速度提升了 120 倍。

下游應用

  • 機器人技術:機器人需要在充滿移動人員和物體的動態環境中導航。 D4RT 可提供安全導航和靈巧操作所需的空間感知能力。
  • 擴增實境(AR):為了讓AR眼鏡能夠將數位物件疊加到現實世界中,它們需要即時、低延遲地理解場景的幾何形狀。 D4RT的高效性有助於將設備端部署變為現實。
  • 世界模型:透過有效地分離相機運動、物件運動和靜態幾何體,D4RT 使我們離擁有真正的物理現實「世界模型」的人工智慧更近了一步——這是通往通用人工智慧 (AGI) 的必要一步。

D4RT 簡化的架構和新穎的查詢機制使其處於 4D 重建的前沿,效率比以前的方法高出 300 倍——速度足以滿足機器人、擴增實境等領域的即時應用需求。

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

Picture Source
Google