Thinking Machines Lab 推出人機協作的互動模型

2026-05-16 IT Dept

本篇文章可能經由機器翻譯或第三方服務翻譯而成，為避免翻譯品質落差造成語意上的誤解，建議參閱原文章內容。由 AI 判讀的觀點不代表原文章之語意表達或事實之陳述，僅做為參考與研究之用。

Thinking Machines Lab 發布互動模型 (Interaction Models) 的研究預覽版，這是一種能夠原生處理交互，而非依賴外部框架，該模型讓人們能夠像彼此自然協作一樣與人工智慧協作——它們持續接收音訊、視訊和文本，並即時思考、回應和行動。

以往的模型是在單線程環境下體驗現實的 (例如 Moshi、PersonaPlex、Nemotron VoiceChat 或 GPT-Realtime-Translate)，在使用者完成輸入或說話之前，模型會處於等待狀態，無法感知使用者正在做什麼或如何做，在模型完成產生之前，其感知會處於凍結狀態，不會接收任何新訊息，直到生成完成或中斷，這為人類與人工智慧的協作創造了一個狹窄的管道，限制了個人知識的運用。

Thinking Machines Lab 相信可以透過讓 AI 即時互動到任何模態來解決頻寬瓶頸問題，AI 介面能夠真正貼合人類的需求，而不是強迫人類扭曲自身來適應 AI 介面。

互動模型 (Interaction Models) 能力

無縫對話管理: 該模型能夠隱式地追蹤說話者是在思考、讓步、自我糾正還是邀請回應。無需單獨的對話管理元件。
口頭和視覺上的介入: 該模型會根據上下文按需介入，而不僅僅是在用戶說完之後。
同步語音: 使用者和模型可以同時說話（例如即時翻譯）。
時間感知能力: 該模型具有對時間流逝的直接感知。
工具呼叫、搜尋和生成式使用者介面同時進行: 在與使用者對話和聆聽的同時，模型可以同時進行搜尋、瀏覽網頁或產生使用者介面，並根據需要將搜尋結果融入對話中。

互動模型 (Interaction Models) 採用微輪次機制，持續交錯處理 200 毫秒的輸入與產生 200 毫秒的輸出。輸入和輸出令牌均被視為資料流，而非消耗完整的使用者輪流並產生完整的回應。以 200 毫秒為單位處理這些資料流，可實現多種輸入輸出模式的近即時並發。

互動模型 (Interaction Models) 不採用大型獨立編碼器處理音頻和視頻，而是選擇預處理量最小的系統，許多全模態模型需要訓練單獨的編碼器（例如 Whisper 類別模型）或解碼器（例如 TTS 模型），Thinking Machines Lab 則將音訊訊號作為 dMel 格式（Bai 等人，2024）接收，並透過輕量級嵌入層進行轉換，影像被分割成 40x40 的影像區塊，並使用 hMLP（Touvron et al. 2022）進行編碼，音訊解碼器採用串流頭（Lipman at al. 2022）。

現今的商業即時 API 透過純音訊對話管理機制進行輪次偵測，它們能夠回應語音指令，但無法在視覺環境變化時主動選擇是否發言。

Thinking Machines Lab 採用了三個基準來評估我們模型的視覺主動性：

RepCount-A 包含重複動作的視頻，並被改編成一個線上計數任務。
ProactiveVideoQA 由帶有問題的影片組成，答案會在特定時刻顯示。
Charades 是一個標準的基於時間的動作定位基準測試。

局限性和未來工作

長時間會話: 持續的音訊和視訊會迅速累積上下文資訊。
計算與部署: 低延遲的音訊和視訊串流傳輸需要可靠的網路連線。
對準和安全: 即時介面為對準和安全領域開闢了一個令人興奮的研究方向。
擴展模型規模: 目前模型 TML-Interaction-Small 是一個包含 2760 億個參數的 MoE，其中 120 億個參數處於啟動狀態。
改進的後台代理: 雖然本文主要關注即時交互，但代理智能也是一項至關重要的能力。

https://thinkingmachines.ai/blog/interaction-models/

Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration",
Thinking Machines Lab: Connectionism, May 2026.

Picture Source
ThinkingMachinesLab

需要登入

本篇文章為會員專屬內容，需要登入後才能觀看完整內文。

請透過連結登入會員中心。立即登入

功能列表

需要登入

Need Assistance?

Live Chat With