SOGO論壇
  登入   註冊   找回密碼
查看: 354|回覆: 0
列印 上一主題 下一主題

[AI 應用] OpenAI 發表三款語音模型,推理、翻譯及語音轉錄能力加速應用落地 [複製連結]

Rank: 11Rank: 11Rank: 11Rank: 11

狀態︰ 離線
跳轉到指定樓層
1
發表於 昨天 13:31 |只看該作者 |倒序瀏覽 | x 1
OpenAI 一口氣推出 3 款全新的即時語音模型,各自針對不同用途具備獨特特性,幫助開發者開啟一系列全新的語音 AI 應用體驗。

OpenAI 推出 3 款不同用途的新語音模型,分別具備推理、翻譯及語音轉錄的能力:

  • GPT‑Realtime‑2:OpenAI 首款具備 GPT‑5 等級推理能力的即時語音模型,可處理難度較高的語音請求,自然地與 AI 對話。
  • GPT‑Realtime‑Translate:這是一款全新即時翻譯模型,可將超過 70 種輸入語言的語音翻譯成 13 種輸出語言,同時能夠跟上說話者的節奏。
  • GPT‑Realtime‑Whisper:這是一款新的串流語音轉文字模型,能在說話者開口的當下,即時轉錄語音內容。


OpenAI 進一步說明具備推理能力的 GPT-Realtime-2,「GPT‑Realtime‑2 是為即時語音互動所打造,這款模型可對請求進行推理、呼叫工具、處理修正或中斷,並以契合當下情境的方式回應,持續推進對話。」

即時語音轉錄模型 GPT‑Realtime‑Whisper 方面,「GPT‑Realtime‑Whisper 是一款全新的串流轉錄模型,專為低延遲的語音轉文字所打造。它能在人們開口說話時即時轉錄語音內容,使產品展現更快、更靈敏、更自然的使用感受,從即時浮現的字幕,到能跟上對話節奏的會議筆記皆能如此。」

這 3 款語音模型包含在 OpenAI 的 Realtime API 當中,收費方式如下:

  • GPT‑Realtime‑2 為每百萬個音訊輸入 token 收費 32 美元(快取輸入 token 為 0.4 美元),每百萬個音訊輸出 token 收費 64 美元。
  • GPT‑Realtime‑Translate 為每分鐘 0.034 美元。
  • GPT‑Realtime‑Whisper 為每分鐘 0.017 美元。


語音可作為人們與產品之間的介面,進而成為一種自然的軟體使用方式。OpenAI 從技術深度與應用廣度展現語音 AI 快速發展,隨著延遲降低、支援語言擴大及推理能力導入,開發者可打造更貼近真實互動的語音產品,加速語音 AI 在客服、會議、教育及跨語言溝通等領域的應用落地。


https://youtu.be/JOu8v6CBjkE?si=W5RoT1cf1GQtNWjC

錄自:科技新報

已有 1 人評分SOGO幣 收起 理由
smartlion + 30 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 30   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊

本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2026-5-9 03:52

© 2004-2026 SOGO論壇 OURSOGO.COM
回頂部