SOGO論壇

標題: 從應用的角度 解析智能語音服務的發展 [列印本頁]

作者: hal9678    時間: 2017-4-18 11:37:21     標題: 從應用的角度 解析智能語音服務的發展

本帖最後由 hal9678 於 2017-7-30 21:12 編輯

撰文: Hal Huang

隨著亞馬遜、谷歌、微軟相繼在語音交互設備上投入,物聯網市場已經看到了這一領域的無限潛力,語音作為人類交流最自然的方式,比文字和圖像更具天然的優勢,因而引領業者聚焦在此領域發展, 而蘋果在這場戰爭中則另闢蹊徑,並不由智能音箱切入, 選擇從智慧耳機入手, 甚至有的業者以智慧電視做切入點, 以智慧語音皮相所發展應用之裝置, 到底最終的發展誰才是最後的贏家, 對於花費龐大資源的技術開發者來說, 如能事前推敲合理的邏輯, 得知其未來正確的發展方向, 對於確立自己真實的市場機會, 將具有非常重要的意義與價值。

探討智能語音未來的發展前景, 我們要明瞭這個應用技術在生活中, 它突破了那些應用瓶頸, 解決我們甚麼問題, 因而帶給人們甚麼便利, 根據這個觀點, 才能合理判讀它未來會如何發展。但智慧語音探討發展之前, 考量市場與裝置發展有其多層面的影響關係, 所以我們必需先回到物聯網產業的置高點, 觀看Echo把智能語音帶到無屏時代的應用, 它到底解決了物聯網智能服務那些問題與瓶頸?  而這些問題與瓶頸, 是否可以經由智慧語音得到解決關鍵? 據此, 我們必須先瞭解目前智慧服務所存在的問題與瓶頸:

智能服務發展的問題與瓶頸:
智能裝置沒有帶來意想的生活便利, 反而造成科技負擔
家庭一直是人類生活重心,現今業者對智慧生活提供林林總服務, 常見的服務,例如,自動啟動家庭設備、情境燈光與音樂自動調適、智慧預熱食物或飲品、以及門戶安全控管等等。 而這些智慧控制方式, 為何無法啟動物聯網服務的大商機? 根結最主要的問題在於, 智慧控制一直存在各樣設備不同平臺、不同傳輸介面等問題,家庭智慧設備間未能完全互通互連,使得智慧服務都偏向於單一裝置。而大多智慧控制需倚賴APP, 致使用戶需要安裝多種不同的APP, 需要投入不少學習與適應的時間, 也造成用戶使用高科技的負擔, 尤其, 一般用戶的居家電器設備, 都已滿足基本需求之下, 想要用這片段式的科技去吸引用戶應用, 卻造就另一種生活習慣的負擔, 大多數的人還不如選擇使用舊有的設備, 配合習慣去掌控生活。

智能服務在APP的應用方式存在限制
APP本身是封閉型的搜尋系統, 無法像網頁可以使用一個搜尋引擎, 直接搜尋想要的服務或商品, 若要達成跨服務搜尋的目的, 則需安裝數種不同服務的APP, 因為各種APP搜尋介面不同, 用戶需要投入不少學習與適應的時間。關於APP的主要應用瓶頸, 我們在此歸納整理三點限制, 如下:
搜尋限制: 用戶不可能安裝所有APP, APP沒有安裝, 服務便沒有機會看見, 物聯網產業以服務為主體, 仍沒有支援可以彙整各種服務的搜尋機制, 意謂現階段仍無法做到隨機的服務搜尋。
市場限制: 手機記憶體資源限制, 用戶安裝APP個數受到限制, 多數的APP在用戶端沒有容身的市場, 形成軟體開發資源浪費, 方案商綑綁APP等於限制自己市場發展。
應用限制: APP具有獨立與封閉特性, 不適於製作單一的專屬服務 (自家website, 智慧控制方案,…), 因而業者的APP通常會延伸至整合服務資訊領域, 使得APP功能市場相互重疊加劇產業競爭。

智能語音解決問題與瓶頸的方法:
面對物聯網時代的來臨, 聯網的各種服務尚未支援一站式的服務搜尋系統, 物聯網在如此場景下, 想要達成提供服務到任何需要的人身上, 絕對是一件不可能的事, 這也是物聯網服務無法全面擴展的原因, 倘若這個情況若發生在互聯網, 就好比網頁服務沒有搜尋引擎支援, 所有查詢到的網址只能加到我的最愛, 可以想像這樣的服務效能, 在互聯網場景也是難以蓬勃發展。

對於克服APP應用方式存在的限制, 其實業界已有相應的技術陸續發展, 例如, 微信小程序 [註1], Physical Web方式 [註2], 以及語音介面方式, 在此, 我們將焦點放在語音介面的方案說明, 其源自於APPLE的SIRI開啟的一個應用方向, 藉由SIRI語音呼求, 搜尋APP Store符合需求的APP, 用戶再經由安裝使用APP,  進而搜尋得到需求的服務。但是這樣的語音服務機制只能搜尋APP, 仍然無法直接獲益於直接得到服務本身, 因此亞馬遜突發奇想以語音方式, 解決這樣的應用瓶頸, 亞馬遜推出一個名為 Alexa Skills Kit (ASK) 的開發包, 協力廠商開發者可以透過ASK來開發利用語音互動的Alexa,它是一種開放式的串接介面,  實際上是把業者的APP服務彙整在一起, 利用語音呼求的方式達成一站式的服務搜尋機制; 不過這樣的服務串接比起其他方案所費不貲, 亞馬遜宣佈推出1億美元的投資基金Alexa Fund,以此來鼓勵開發者參與Alexa語音技能的開發, 根據亞馬遜官方介紹,亞馬遜主要從創新性、消費者關聯度、與 ASK 的關聯度等角度衡量開發者專案,一旦通過,亞馬遜就會提供一筆資金回饋業者。

智能語音解決方案的應用缺失:
語音對細節確認存在應用限制
現今智能語音所發展的應用方案  (Ex. Amazon Echo, Google Home, ...),  使用語音方式搜尋各種需求服務,  其目的在匯聚分化的APP服務,  提供一站式的語音服務介面,  但以語音呼叫方式, 對於服務需做細節確認來說, 缺點是呼叫時間程序太長, 所以僅以語音對應而沒有文字圖片確認, 目前僅能提供簡單的服務或標準化商品呼叫, 其實應用上還是受到很大的限制,  所以近期亞馬遜正在開發帶有顯示屏的智慧音箱,新設備將搭載約7英吋的觸摸屏,與目前亞馬遜圓柱形的Echo音箱外觀有很大不同,這將幫助用戶更方便地獲取服務內容,提供更精確的服務資訊; 其實具有7英吋觸摸屏的Echo不論功能如何, 與平板電腦硬體規格相似度又拉近了一步, 最明顯差異在於非移動使用與較高功率的聲音輸出 (屏幕已定義裝置正面, 聲源方向偵測功能的必要性降低)。

搭載觸摸屏的發展仍然存在矛盾點, 如果智慧音箱顯示屏夠大, 可以揭露清楚的文字/圖片說明訊息足夠, 就無須有語音對話的必要性,  其實這又回到目前手機&平板近身使用方式, 顯示屏夠大就無須強加語音使用, 畢竟使用語音所花費的時間效能較差, 但是如前所述也並非一無是處, 它可以提供一站式搜尋服務的優點, 但是一站式搜尋服務的作法可能不只一種, 我們根結語音最需使用的狀態, 在於雙手無法接近該裝置的情況下(裝置例如, 機器人, 車用GPS,...), 筆者認為語音/文字/圖片搭配的最佳方式, 可以參考車用GPS設備的應用機制, 利用語音達成搜尋服務功能 (可攜裝置可以加上關鍵詞喚醒功能), 當語音引導到需求的服務功能後, 細部的說明與設定經由屏幕文字/圖片顯示, 再以語音做選擇或確認動作, 這樣便可達成最佳的應用效能, 所以一根腸通到底的語音服務並非是最好的方案, 而語音服務本身的真正利基, 需要回歸到喚醒與搜尋的機制, 不要使用語音做所有細節確認動作。

智能語音的對應能力不足
一般使用智能語音發展的智能音箱, 最大為人所詬病的就是, 用戶一時之間不容易搞懂對話邏輯, 就算語音辨識技術已臻完美, 詢問的方式與系統設計的邏輯有差異, 便無法得到詢問的結果, 但要摸清楚問話邏輯則需要不斷地使用嘗試, 但絕大部分用戶沒有那麼多的時間去嘗試, 便可能選擇放棄。

智能語音問與答規則相較於人類說話的方式, 仍然顯得十分侷限與死板, 而無法達到像真人應對的彈性, 單純的語音介面應用的問題在於, 詢問的用戶並不十分清楚, 可以對話無礙的邏輯, 以及裝置可以回應的選項為何, 而裝置也無法提供層次性與序列式的語音回覆, 讓用戶得到更明確的選擇, 根結原因是考量執行的時間效能, 這樣的處理機制雖然明確, 但是十分浪費時間, 好比利用電話做語音掛號, 當用戶要在多位醫師中選擇一位掛號, 當語音陳述超過三位時, 相信已經花費不少時間, 而用戶也可能忘記前面要選擇的項目; 不過, 裝置上添加顯示屏, 回應附加文字訊息與確認選項, 確實可以達到提升對話的效能的目的, 但在有限設定的對話回應中, 是否足以判斷用戶詢問的所有問題, 在智能裝置所具有智慧的層面上, 仍然有加強提升的空間。   

語音智能服務與用戶應用服務的差距
Echo 智能音箱已經超過10,000 項應用服務,對 Alexa 來說,固然是一個可以展現平台規模的好數字, 但 Alexa 真正尷尬的地方在於,它擁有的應用服務那麼多,使用率卻很低,這可能是上述缺失所造成的結果。據語音互動研究機構 Voice Labs 在 2017 年 1 月釋出的研究報告,當時 Alexa 擁有的 7,000 多項應用服務,其中只有 31% 評分超過一次, 因為 Voice Labs 認為,Alexa 語音應用服務中大多數都是「殭屍技能」(Zombie Skills), 這不難讓人想到現在蘋果 App Store 和 Google Play 的狀況也是一樣的,大多數 App 都是殭屍應用軟體。 但智能音箱與智慧手機上的行動應用相比,Alexa 的應用服務還要面臨另外一種考驗, 同樣是 Voice Labs 的資料,Alexa應用服務的用戶留存率只有 3%;也就是說,在用戶嘗試一個新應用服務後,下週繼續使用該應用服務的機率只有 3%,由此可見,智能音箱要在家庭的智能服務應用生根,還有一段調整的路要走,或許除了詢問問題與點歌之外, 搭載屏幕才能便於其他服務的應用,如何讓用戶對新的應用服務保持興趣,是亞馬遜Alexa 未來必須面對的重要課題。

智能語音服務裝置發展型態的轉變:
以語音為介面主體的智能服務, 應用技術上雖有許多細節需要改善, 但對過去以視覺介面為主的應用方式,已經產生了一個催化的作用, 筆者認為未來視覺介面, 將輔以智能語音提昇應用效能, 對未來使用者應用介面而言, 有利於趨向更加友善與直覺的應用發展; 智能服務裝置加上顯示屏幕的之後,裝置應用距離將被限制在視覺距離,而純語音應用可達五米的收音距離, 可能將不再是訴求的重點。 智能語音皮相所發展應用裝置, 目前常見的是智能音箱, 如前所述, 有的業者以智慧電視做切入點, 有些則以耳機配合手機切入, 這些裝置最終合理的發展型態為何? 它影響到裝置商的產品佈局, 以及技術開發商的發展方向, 為了分析智能裝置後續的發展, 我們先以智能音箱的應用來看, 亞馬遜以無線喇叭概念演進, 意圖攻略智能家庭控制中心的市場, 過去智能家庭控制中心聚焦在智慧電視發展, 為了讓不同製造廠商的產品可以相互溝通、控制以及分享資訊,需有統一的協定可以運作, 但目前全球尚未有統一協定順利推動,使得亞馬遜智能音箱趁隙而起,亞馬遜以其豐富應用服務資源優勢,凸顯智能音箱在智能家庭主導地位。 但以亞馬遜的智能服務發展型態而言,充其量是各類服務整合商的上一層介紹站,而在各類服務越加薄利的發展趨勢下,層層剝削中要有鉅額的服務獲利,以目前實際應用上來看是有困難的,所以筆者認為亞馬遜對於服務的發展策略,可能修正為提供免費的服務搜尋,而裝置添加顯示屏之後,另以文字或圖示廣告作為收入來源,以期創造更穩定的獲利。

智能服務裝置的應用利基而言,如果智慧電視具備智能語音功能狀況下,在近身應用的市場而言,智能音箱未來將不敵智慧電視先天應用優勢,我們推論智能服務發展顯示屏的趨勢下,家庭其他裝置明顯不如電視的屏幕尺寸,而較大顯示屏幕意謂視覺服務距離較遠,且電視俱足大功率喇叭可取代音箱應用,另外最重要的要點是,電視是各家各戶幾乎認定的必須裝置,多數已佔領客廳甚至各個房間領域,在此發展的狀態下,筆者認為智能音箱必須購置的需求就降低很多。 智能音箱發展的另一衝擊為耳機配合手機切入的應用,此系統的智能語音在手機運作為主體,語音輸出輸入搭配使用無線耳機,因為手機業已俱足屏幕與語音功能,所以毋須購置多餘的音箱裝置,對於使用者隨處使用的便利而言,明顯優於智能音箱應用,加之未來藍芽5.0技術普及後,耳機與手機的傳輸距離增加並可傳輸HD音質, 用戶可以隨時使用手機裝置近身呼求服務,若需求純語音服務只要配戴耳機,手機可以置放到家中任一角落,便可隨心所欲在幾十米以外呼求服務,這樣應用方式,筆者認為具有十足的潛力成為主流應用。



[註 1]: 微信小程序正式發表!中國的 APP 產業面臨巨大衝擊  
http://www.inside.com.tw/2017/01/09/minapp

[註 2]: 物聯網的最佳解決方案--Physical Web
http://oursogo.com/thread-2165344-1-3.html





歡迎光臨 SOGO論壇 (https://oursogo.com/) Powered by OURSOGO.COM