SOGO論壇
  登入   註冊   找回密碼
查看: 801|回覆: 0
列印 上一主題 下一主題

[AI 應用] Google發表超像真人的語音AI模型 可以說耳語、激動歡呼! [複製連結]

Rank: 12Rank: 12Rank: 12

狀態︰ 離線
跳轉到指定樓層
1
發表於 2026-4-18 17:24:10 |只看該作者 |正序瀏覽 | x 1
Google於2026年4月15日正式發表新一代文字轉語音(Text-to-Speech)模型,Gemini 3.1 Flash TTS,全新的「音訊標籤(Audio Tags)」技術,AI語音將不再生硬,根據對話情境調整語氣,不論是激動的歡呼還是低聲細語,都能展現如同真人般的聲音起伏,讓機器人的聲音聽起來更有溫度與表現力。

首創音訊標籤技術 語氣、重音與節奏由你定義

Gemini 3.1 Flash TTS最大的亮點在於引入了直覺的音訊標籤功能,過去,調整AI語音的表現力往往需要繁瑣的參數設定,現在開發者只需在文字輸入中嵌入自然語言指令(如:<whisper>、<shout>或<excited>),即可精準控制語音的風格、語速與語氣。

此外,該模型還支援場景導向(Scene Direction)功能。這意味著開發者可以為AI設定背景脈絡,例如讓AI扮演一名正在忙碌咖啡廳中點餐的店員,或是正在耳語交談的神秘角色,讓AI角色在多輪對話中能始終保持人設的一致性與反應的自然度。

支援超過70種語言與SynthID浮水印

為了滿足全球市場需求,Gemini 3.1 Flash TTS首波即支援超過70種語言,並提供30種預設的高品質基礎聲音供選擇,不論是專業的旁白導讀,還是日常的對話交流,該模型都能根據不同語言的重音與文化特性,產出極具自然感的音訊。

安全性方面,Google也同步導入了SynthID音訊浮水印技術。所有由Gemini 3.1 Flash TTS生成的音訊都會嵌入不可見的浮水印,這有助於在數位環境中辨識AI生成內容,避免語音偽造或誤導性內容的傳播。

低延遲、高效能 加速AI語音代理人的應用普及

作為Gemini 3.1系列的一員,Flash TTS模型特別針對高產量的應用場景進行了優化。根據Google發布的技術指標,該模型具備極高的反應速度,特別適合用於即時客服代理(Customer Service Agents)、AI導師以及沉浸式遊戲對話。

目前,Gemini 3.1 Flash TTS已在Google AI Studio與Vertex AI開放預覽,並同步整合進Google Workspace的最新應用軟體中。

錄自:TN科技島

已有 1 人評分SOGO幣 收起 理由
smartlion + 30 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 30   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊

本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2026-5-5 10:39

© 2004-2026 SOGO論壇 OURSOGO.COM
回頂部