查看: 16|回覆: 0

[AI 應用] 微軟推出語音辨識、語音生成與圖像生成 MAI 模型 [複製連結]

landrover1211

熾天使(九級)

Rank: 12

狀態︰離線

電梯直達

1樓

發表於 2026-4-5 18:48:23 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

微軟推出語音辨識、語音生成與圖像生成三款模型，分別為 MAI-Transcribe-1、MAI-Voice-1 與 MAI-Image-2，效能號稱優於 OpenAI 與 Google 等同業產品。

微軟宣布推出新一代 MAI 模型組合，並已正式上線 Microsoft Foundry，主打高效能與價格優勢，進一步擴展生成式 AI 應用版圖。

在語音辨識方面，MAI-Transcribe-1 支援全球 25 種常用語言，並在 FLEURS 基準測試中達到先進水準。微軟表示，該模型針對真實環境中的雜訊與語音干擾進行優化，批次轉錄速度達既有 Azure Fast 方案的 2.5 倍，同時維持低詞錯率（WER），在準確度與效率之間取得平衡。

語音生成方面，MAI-Voice-1 強調自然語音與情緒表達能力，可在長段內容中維持聲音一致性。微軟同時推出自訂語音功能，開發者僅需數秒音訊，即可建立專屬語音模型。效能方面，該模型可在 1 秒內生成約 60 秒語音內容，並透過高效率 GPU 使用降低運算成本。

影像生成方面，MAI-Image-2 則進一步提升生成速度與品質。微軟指出，該模型在實際應用中可達至少 2 倍生成速度提升，並曾於 Arena.ai 排行中名列前段。模型針對攝影與設計應用優化，提升自然光影、膚色與細節呈現能力，同時支援圖像內文字生成。

在企業應用上，MAI-Image-2 已獲全球行銷與傳播集團 WPP 採用，用於影像創作與廣告製作。WPP 表示，該模型能更精準回應創意需求，並提升影像製作效率。

至於價格方面，MAI-Transcribe-1 每小時 0.36 美元起，MAI-Voice-1 每百萬字元 22 美元起，MAI-Image-2 則為文字輸入每百萬 tokens 5 美元、影像輸出 33 美元。

微軟表示，MAI 系列模型以「Humanist AI」為設計理念，強調以人類溝通方式為核心進行優化，並著重實務應用場景。同時，模型皆已完成安全測試與紅隊驗證，並透過 Foundry 提供企業級治理與控管機制，支援大規模部署。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 20	您發表的影音非常棒，無私分享造福眾人，論.

總評分: SOGO幣 + 20 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2026-5-5 09:01	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2026 SOGO論壇 OURSOGO.COM

[AI 應用] 微軟推出語音辨識、語音生成與圖像生成 MAI 模型 [複製連結]

瀏覽過的版塊