Xiaomi 發布原生端到端語音大模型 Xiaomi-MiMo-Audio

小米宣布開源其旗艦端對端 AI 語音模型 Xiaomi-MiMo-Audio。

本週,小米宣布了一項大膽舉措:開源其旗艦端對端 AI 語音模型 Xiaomi-MiMo-Audio。這意義非凡? Xiaomi-MiMo-Audio 專為真正的語音情境學習而設計——這項突破有望徹底改變 AI 在語音驅動平台上的理解和互動方式。

Xiaomi-MiMo-Audio 摒棄了以往那種需要淹沒在標記資料中才能得出結果的方法,只需少量樣本即可泛化並適應新任務。這與我們在語言領域看到的 GPT-3 等模型的轉變非常相似——只不過現在,這種轉變發生在語音領域。該模型經過數億小時音訊資料的精心訓練,不僅具備解析內容的 IQ(智慧),還具備理解語氣和意圖的 EQ(情緒智商),這對於商業應用和麵向客戶的產品來說是一個重大進步。

MiMo-Audio 與其他競爭解決方案的不同之處在於其在無損壓縮預訓練方面的技術飛躍,這使得模型能夠實現大規模跨任務泛化。實際上,這使得企業能夠部署 AI 語音應用程序,大幅降低數據需求,並更快地適應新任務和新行業。

小米不僅在創新,還在分享策略。該公司不僅開放了模型本身,還開放了其分詞器、全新開發的模型結構、先進的訓練工具和評估套件。此舉將加速整個 AI 語音生態系統的進步,讓開發者和企業能夠獲得成熟、久經考驗且可靈活調整以適應客製化用例的技術。

在實現方面,小米 MiMo 音訊的預訓練和微調模型可在 Huggingface 平台上訪問,其分詞器已發佈在GitHub上。該模型基於一個擁有 12 億參數的 Transformer 架構構建,使其在音訊重建和音訊轉文字任務中都具有強大的穩健性。

MiMo-Audio-Tokenizer

MiMo-Audio-Tokenizer 是一款擁有 12 億參數、工作頻率為 25 Hz 的 Transformer。它採用八層 RVQ 堆棧,每秒產生 200 個 token。透過聯合優化語義和重構目標,我們在 1000 萬小時的語料庫上從頭開始訓練 MiMo-Audio-Tokenizer,實現了卓越的重構質量,並助力下游語言建模。

MiMo-Audio 結合了區塊編碼器、LLM 和區塊解碼器,以提高高速率序列的建模效率,並彌補語音和文字之間的長度不匹配問題。塊編碼器將四個連續時間步長的 RVQ 標記聚合成一個塊,並將序列下採樣為 LLM 的 6.25 Hz 表示。區塊解碼器透過延遲產生方案自回歸產生完整的 25 Hz RVQ 標記序列。

https://github.com/XiaomiMiMo/MiMo-Audio

Picture Source
Xiaomi