Xiaomi 發布聲音理解大模型 MiDashengLM-7B!

Xiaomi (小米) 正式發表並全面開放 MiDashengLM-7B 多模態大模型程式碼和參數,旨在為其電動車和智慧家居設備提供 AI 驅動。

Xiaomi (小米) 正式發表並全面開放 MiDashengLM-7B 多模態大模型程式碼和參數,旨在為其電動車和智慧家居設備提供 AI 驅動,這款專注於音訊理解的 AI 模型在性能和效率上都取得了顯著突破。

一流的性能

  • 在多個關鍵音訊理解任務上表現優於 Qwen2.5-Omni-7B、Kimi-Audio-Instruct-7B 。

高效率

  • 與 Qwen2.5-Omni-7B 相比,在同等批量大小下,吞吐量加快了3.2 倍。
  • 透過進一步增加批次大小,吞吐量提升了 20 倍。我們在 80GB GPU 上測試了大量大小高達 512 的30 秒音訊輸入。基準測試僅支援批次大小為 8。
  • 與 Qwen2.5-Omni-7B 相比,第一個令牌時間 (TTFT) 加速高達4 倍。

基於標題的對齊

  • 使用通用音訊字幕(而不是 ASR 成績單)進行訓練,以實現整體音訊理解。

完全透明

  • 公共源訓練資料和可重複的管道。
  • Apache License 2.0 適用於研究和商業用途。

MiDashengLM-7B 模型以現有的語音技術為基礎,並採用了阿里巴巴的開放程式碼 Qwen2.5-Omni-7B 作為解碼器訓練的初始化模型。

https://xiaomi-research.github.io/dasheng-lm/

Picture Source:
unsplash.com