[AI 應用] 小米發布並開源聲音理解大模型 MiDashengLM-7B [複製連結]

lionking0809

座天使(七級)

Rank: 10

狀態︰離線

電梯直達

1樓

發表於 2025-8-4 17:27:23 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

綜合中媒及港媒報導，小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示，MiDashengLM-7B 聲音理解性能在 22 個公開評測集上，刷新多模態大模型最佳成績（SOTA），單樣本推理的首 Token 延遲（TTFT）僅為業界先進模型的四分之一，同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。

小米指出，MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器，透過創新的通用音訊描述訓練策略，實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型，MiDashengLM完整公開了77個數據源的詳細配比，技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

做為小米「人車家全生態」戰略的關鍵技術，MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發生了什麼事，還能分析發現這些事情的隱藏含義，提高用戶場景理解的泛化性。

MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件，是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上，小米已著手對MiDashengLM模型做計算效率的進一步升級，尋求終端設備上可離線部署，並完善基於用戶自然語言提示的聲音編輯等更全面的功能。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您的真誠回覆內容精闢，堪為表率，值得鼓勵.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2025-8-24 06:19	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2025 SOGO論壇 OURSOGO.COM

[AI 應用] 小米發布並開源聲音理解大模型 MiDashengLM-7B [複製連結]

瀏覽過的版塊