Open School
 

【個人文章】

人機交談新趨勢,Google Duplex 發表

 

唐曉明   |   2018-05-23 16:00:13

Google兩日前在加州召開2018年度的開發者大會(Google I/O 2018),在大會上Google沒有讓大眾失望,除了介紹Android P、Gmail、Gboard、TPUv3 等眾多新產品和功能外,最吸引眼球無疑是個人助理Google Assistant的升級版 Google Duplex,它可以自己給食店、髮型店等打電話,替用戶預約時間,感覺更像與人類進行對話。

近年高科技給我們帶來了很多震撼,尤其在近年發展迅速的AI人工智能,學界也積極探討人工智能的各種可能。Google也積極研發相關的技術應用,它在人工智能對話方面早有研究,過去發表的Google Assistant,便是挑戰其競爭對手Apple Siri的產品。今次發表的Google Duplex,就包含了新的技術,它可以打電話給人類,透過自然、模仿人類的對話,完成一系列真實世界的任務。人機之間快到難以分辨的地步,說不定將來與你通電話的另一邊,不是人類而是機器呢。

Google在會上表示,只需要幾個星期,便可以在Google Assistant裡引入Google Duplex的實驗版供大家體驗,但是正式推出的日期還是未有決定,看來對於人工智能應用到學習和工作中已經不再是幻想了。

人機交談新趨勢,Google  Duplex 發表 

小知識:

Google Duplex是如何操作的?

Google Duplex借助語言理解、交互、時間控制、語音生成方面的最近技術發展, 令對話聽起來相當真實自然。其核心是一個循環神經網路(RNN網路),它是由TensorFlow Extended(RFX)構建的。為了達到高精度,Google用匿名的電話對話數據訓練Duplex的RNN網路。這個網路會使用 Google 自動語音辨識(ASR)的辨識結果文本,同時也會使用音頻中的特徵、對話歷史、對話參數(比如要預訂的服務,當前時間)等等。Google為每一種不同的任務,分別設置不同的學習理解用模型,藉以進一步優化系統。

Google Duplex生成自然語音技術

Google聯合使用了一個級聯TTS(TTS: 語音合成的一種方式)引擎和一個生成式TTS 引擎,根據不同的情境控制語音的語調。這個系統還可以生成一些語氣詞(比如“hmmm”、“uh”),讓語音變得更自然。當級聯TTS 需要組合變化很大的語音單位,或者需要增加生成的停頓時,語氣詞就會被添加到生成的語音中,這就讓這個系統可以用一種自然的方式向對方示意「是的我聽著呢」或者「我還在考慮」(人類說話的時候就經常在思考的同時發出一些語氣詞)。Google曾說此進行調查,調查顯示,大部份用戶都人類覺得帶有語氣詞的對話更熟悉、更自然。Google又發現,在某些情況下要增加一些延遲來讓對話聽起來更自然,比如回覆一個很複雜的句子的時候,就像人類不完全理解另一方的時候會做猶豫停頓一樣。

 

 


#Google | #Duplex | #語音生成 | #自然語音技術 | #TTS | #Apple Siri | #個人助理 | #Google Assistant | #Google IO 2018 | #人機交互 | #AI | #人工智能 | #人機交談