- 註冊時間
- 2021-1-2
- 最後登錄
- 2025-7-24
- 主題
- 查看
- 積分
- 818
- 閱讀權限
- 100
- 文章
- 418
- 相冊
- 4
- 日誌
- 1
  
狀態︰
離線
|
華盛頓大學(University of Washington, UW)的研究團隊,近期開發出一款令人矚目的AI驅動智慧耳機,其中突破性功能主要在於能「同時翻譯多位說話者的語音」,即便在嘈雜的環境中也能清晰辨識與翻譯。這項創新技術,遠超越目前市面上如Google Pixel Buds或Timkettle等,只能處理單一音訊流的即時翻譯解決方案。
該團隊將這項創新稱為「空間語音翻譯」(Spatial Speech Translation),透過雙耳耳機(binaural headphones),雙耳音訊旨在模擬人類耳朵自然感知聲音的方式,藉由將麥克風放置在與人耳間距相同的假人頭上進行錄音,以捕捉聲音的來源方向。這項技術的關鍵在於人類耳朵不僅僅是聽到聲音,更能判斷聲音的來源方向。最終目標,是產生一個自然音場與立體聲效果,提供如同現場音樂會般的沉浸式體驗,或「空間聆聽」效果。
這項研究由Shyam Gollakota教授領導的團隊負責,Gollakota教授過去曾發表多項創新研究,包括能讓智慧手錶在水下進行GPS定位的應用程式、將甲蟲轉化為攝影師的技術、可與電子產品互動的腦部植入物,以及能檢測感染的行動應用程式等。
多語者翻譯如何運作?
「我們首次保留了每個人聲音的音質,及其來源方向。」目前擔任華盛頓大學Paul G. Allen電腦科學與工程學院教授的Gollakota解釋道。該團隊將其技術堆疊比喻為雷達,能即時識別周圍說話者的數量,並隨著人們進出聆聽範圍而即時更新。整個系統都在設備上本地運行,無需將用戶語音串流發送到雲端伺服器進行翻譯,有效保障了用戶隱私。
除了語音翻譯,這套設備還能「保持每位說話者語音的表現力與音量」。更進一步,當說話者在房間內移動時,系統還能自動調整方向和音量強度。值得一提的是,有報導指出蘋果也正在開發一套允許AirPods即時翻譯音訊的系統。
技術實現與效能表現
華盛頓大學團隊在近十種室內外環境中,測試了AI耳機的翻譯能力。就性能而言,該系統能在2至4秒內接收、處理並產生翻譯音訊。儘管測試參與者表示更偏好3至4秒的延遲,但團隊正致力於加速翻譯流程。目前,該團隊僅測試了西班牙語、德語和法語的翻譯,並樂觀預期未來能增加更多語言。從技術層面來看,他們將盲源分離、定位、即時表情翻譯和雙耳渲染,濃縮成一個單一流程,這無疑是一項令人印象深刻的壯舉。
這套系統的開發是基於蘋果M2晶片,團隊開發出一個能夠在M2晶片上即時運行的語音翻譯模型,實現了即時推斷(real-time inference)。音訊處理則由一對Sony WH-1000XM4降噪耳機和一個Sonic Presence SP15C雙耳USB麥克風負責。更令人振奮的是,該機構新聞稿指出:「此概念驗證設備的程式碼已開放供他人在此基礎上進行開發。」這意味著科學界和開源社區可以學習並基於華盛頓大學團隊奠定的基礎,開發出更先進的專案。 |
-
總評分: SOGO幣 + 10
查看全部評分
|