查看: 801|回覆: 0

[AI 應用] Google發表超像真人的語音AI模型可以說耳語、激動歡呼！ [複製連結]

landrover1211

熾天使(九級)

Rank: 12

狀態︰離線

電梯直達

1樓

發表於 2026-4-18 17:24:10 |只看該作者 |正序瀏覽 | 被感謝次數

x 1

Google於2026年4月15日正式發表新一代文字轉語音（Text-to-Speech）模型，Gemini 3.1 Flash TTS，全新的「音訊標籤（Audio Tags）」技術，AI語音將不再生硬，根據對話情境調整語氣，不論是激動的歡呼還是低聲細語，都能展現如同真人般的聲音起伏，讓機器人的聲音聽起來更有溫度與表現力。

首創音訊標籤技術語氣、重音與節奏由你定義

Gemini 3.1 Flash TTS最大的亮點在於引入了直覺的音訊標籤功能，過去，調整AI語音的表現力往往需要繁瑣的參數設定，現在開發者只需在文字輸入中嵌入自然語言指令（如：<whisper>、<shout>或<excited>），即可精準控制語音的風格、語速與語氣。

此外，該模型還支援場景導向（Scene Direction）功能。這意味著開發者可以為AI設定背景脈絡，例如讓AI扮演一名正在忙碌咖啡廳中點餐的店員，或是正在耳語交談的神秘角色，讓AI角色在多輪對話中能始終保持人設的一致性與反應的自然度。

支援超過70種語言與SynthID浮水印

為了滿足全球市場需求，Gemini 3.1 Flash TTS首波即支援超過70種語言，並提供30種預設的高品質基礎聲音供選擇，不論是專業的旁白導讀，還是日常的對話交流，該模型都能根據不同語言的重音與文化特性，產出極具自然感的音訊。

安全性方面，Google也同步導入了SynthID音訊浮水印技術。所有由Gemini 3.1 Flash TTS生成的音訊都會嵌入不可見的浮水印，這有助於在數位環境中辨識AI生成內容，避免語音偽造或誤導性內容的傳播。

低延遲、高效能加速AI語音代理人的應用普及

作為Gemini 3.1系列的一員，Flash TTS模型特別針對高產量的應用場景進行了優化。根據Google發布的技術指標，該模型具備極高的反應速度，特別適合用於即時客服代理（Customer Service Agents）、AI導師以及沉浸式遊戲對話。

目前，Gemini 3.1 Flash TTS已在Google AI Studio與Vertex AI開放預覽，並同步整合進Google Workspace的最新應用軟體中。

錄自：TN科技島

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 30	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 30 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2026-5-5 10:39	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2026 SOGO論壇 OURSOGO.COM

[AI 應用] Google發表超像真人的語音AI模型 可以說耳語、激動歡呼！ [複製連結]

瀏覽過的版塊

[AI 應用] Google發表超像真人的語音AI模型可以說耳語、激動歡呼！ [複製連結]