Thinking Machines Lab 推出人機協作的互動模型

Thinking Machines Lab 發布互動模型 (Interaction Models) 的研究預覽版,讓人們能夠像彼此自然協作一樣與人工智慧協作。

Thinking Machines Lab 發布互動模型 (Interaction Models) 的研究預覽版,這是一種能夠原生處理交互,而非依賴外部框架,該模型讓人們能夠像彼此自然協作一樣與人工智慧協作——它們持續接收音訊、視訊和文本,並即時思考、回應和行動。

以往的模型是在單線程環境下體驗現實的 (例如 Moshi、PersonaPlex、Nemotron VoiceChat 或 GPT-Realtime-Translate),在使用者完成輸入或說話之前,模型會處於等待狀態,無法感知使用者正在做什麼或如何做,在模型完成產生之前,其感知會處於凍結狀態,不會接收任何新訊息,直到生成完成或中斷,這為人類與人工智慧的協作創造了一個狹窄的管道,限制了個人知識的運用。

Thinking Machines Lab 相信可以透過讓 AI 即時互動到任何模態來解決頻寬瓶頸問題,AI 介面能夠真正貼合人類的需求,而不是強迫人類扭曲自身來適應 AI 介面。

互動模型 (Interaction Models) 能力

  • 無縫對話管理: 該模型能夠隱式地追蹤說話者是在思考、讓步、自我糾正還是邀請回應。無需單獨的對話管理元件。
  • 口頭和視覺上的介入: 該模型會根據上下文按需介入,而不僅僅是在用戶說完之後。
  • 同步語音: 使用者和模型可以同時說話(例如即時翻譯)。
  • 時間感知能力: 該模型具有對時間流逝的直接感知。
  • 工具呼叫、搜尋和生成式使用者介面同時進行: 在與使用者對話和聆聽的同時,模型可以同時進行搜尋、瀏覽網頁或產生使用者介面,並根據需要將搜尋結果融入對話中。

互動模型 (Interaction Models) 採用微輪次機制,持續交錯處理 200 毫秒的輸入與產生 200 毫秒的輸出。輸入和輸出令牌均被視為資料流,而非消耗完整的使用者輪流並產生完整的回應。以 200 毫秒為單位處理這些資料流,可實現多種輸入輸出模式的近即時並發。

互動模型 (Interaction Models) 不採用大型獨立編碼器處理音頻和視頻,而是選擇預處理量最小的系統,許多全模態模型需要訓練單獨的編碼器(例如 Whisper 類別模型)或解碼器(例如 TTS 模型),Thinking Machines Lab 則將音訊訊號作為 dMel 格式(Bai 等人,2024)接收,並透過輕量級嵌入層進行轉換,影像被分割成 40x40 的影像區塊,並使用 hMLP(Touvron et al. 2022)進行編碼,音訊解碼器採用串流頭(Lipman at al. 2022)。

現今的商業即時 API 透過純音訊對話管理機制進行輪次偵測,它們能夠回應語音指令,但無法在視覺環境變化時主動選擇是否發言。

Thinking Machines Lab 採用了三個基準來評估我們模型的視覺主動性:

  • RepCount-A 包含重複動作的視頻,並被改編成一個線上計數任務。
  • ProactiveVideoQA 由帶有問題的影片組成,答案會在特定時刻顯示。
  • Charades 是一個標準的基於時間的動作定位基準測試。

局限性和未來工作

  • 長時間會話: 持續的音訊和視訊會迅速累積上下文資訊。
  • 計算與部署: 低延遲的音訊和視訊串流傳輸需要可靠的網路連線。
  • 對準和安全: 即時介面為對準和安全領域開闢了一個令人興奮的研究方向。
  • 擴展模型規模: 目前模型 TML-Interaction-Small 是一個包含 2760 億個參數的 MoE,其中 120 億個參數處於啟動狀態。
  • 改進的後台代理: 雖然本文主要關注即時交互,但代理智能也是一項至關重要的能力。


https://thinkingmachines.ai/blog/interaction-models/

Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration",
Thinking Machines Lab: Connectionism, May 2026.

Picture Source
ThinkingMachinesLab