AI語音對話何時擺脫智障?互聯網+
給我一個靈活,有創意的對話AI
一鳴網8月1日前沿觀察:(謝東霞|關注人工智能、物聯網)近期谷歌又更新了其新的聊天機器人——Dialogflow企業版接管呼叫中心。Dialogflow是基于谷歌的Duplex技術開發,該技術使得客戶獲得更好的人機交互體驗,使得對話聊天更加自然。這項技術借鑒了谷歌的深度學習研究和來自 Alphabet DeepMind 的開創性人工智能。 Deepmind 的 WaveNet 技術賦予了聊天機器人“聽起來像人類”的特點。 Wavenet 用超過70% 的人聲縮小了機器人與人聲的語音差距。
百度研究院前段時間也推出了他們有關TTS的成果——ClariNet,在語音的自然度方面成功地超越了其他方法,成為百度在TTS研究上的又一里程碑。此前基于神經內網絡的TTS模型是將優化的文本到聲譜圖和波形合成模型分開來的,這可能會導致不理想的表現。而ClariNet第一次做到了用完全的端到端TTS模型,直接將文本轉換成波形圖,并且只需要一個神經網絡即可。
超越機器學習的新工具
對話AI是人工智能的一個子領域,專注于在人與計算機之間產生自然而無縫的對話。 近年來,在自動語音識別(ASR),文本到語音(TTS)和意圖識別等方面都產生了重大改進,但是,我們距離科幻小說中所承諾的流暢的人機對話還有很長的路要走。機器學習在過去幾年推動了面部識別,語音識別和對象識別等領域取得重大進步,使許多人相信它將解決會話AI存在的問題。
機器學習特別適合于涉及在大型數據庫中查找的問題,例如有關會話AI中語音識別、語音合成的問題就能通過機器學習提供很好的解決方案。近幾年,計算機對話的研究主要關注自然語言理解,人工智能理解人類意圖的能力也有了很大進步。但是在自熱語言生成方面還有很大的挑戰,自然語言對語境十分敏感,往往是一種含糊不清的狀態,通過機器學習收集分析大量的數據很難生成合適的回答,能夠維持持續可靠的對話狀態將是接下來對話管理要關注的主要問題,我們需要超越機器學習的新工具來有效管理人機對話的所有方面。
追求更高保真度的對話
現在大多數的會話體驗要么是廣泛但是很淺,(例如,“時間是什么時候?”=>“時間是早上9點45分”)要么是深入但是狹窄(例如,在測驗游戲中多場景的人物對話)。我們需要超越這些會話限制,進入到一個廣泛而深入的對話世界。會話AI需要更好地理解用戶輸入的上下文,能夠做出適當地響應,強有力地跟蹤對話的狀態。
在人類彼此之間的自然對話中,每個人都會根據談話對象之前的經歷,作出為他們量身定制的回答。但機械的AI對話往往缺少個性令人感到厭煩。要解決這個問題或需讓機器對談話人進行身份識別,以便讓AI知道你是誰,同時跟蹤先前對話的狀態,學習特定用戶的偏好或風格,并且對不同的用戶做出個性化的回應。
一直以來,會話AI專注于理解口頭輸入和產生口頭反應。但是,應該允許用戶以多種不同的方式提供輸入,并且輸出也能以不同的形式生成。例如,通過情緒分析讓AI對情緒級輸入做出反應,并能考慮同時進行多個輸入或輸出會帶來的一系列復雜性問題。
將人類置于初始對話生成的循環中
目前已經可以發現,嘗試生成完全自動化的自然語言生成可能不是最佳前進方式,因為最自然的人類對話不是重組大量先前對話數據的結果,而是通過聯系當前上下文,考慮到雙方獨特的會話歷史,以及一系列的會話習慣和技巧所形成的。
所以在當前技術條件下,自然語言生成的解決方案無法消除人類在機器學習循環中的介入,將人類置于初始對話生成的循環中,能夠控制合成角色的語氣,風格和個性。讓人類進行創造性輸入,幫助系統識別每個上下文做個性化的回應,并定義對話應該如何流入下一個問題或主題。訓練出靈活的創作工具,帶給我們一個愉快、流暢的對話體驗。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。