[發明專利]用戶、自動化助理和其它計算服務之間的多模態交互在審
| 申請號: | 201880094239.6 | 申請日: | 2018-05-07 |
| 公開(公告)號: | CN112868060A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 烏拉什·基拉茲吉;亞當·科英布拉;亞伯拉罕·李;董偉;特胡尚·阿馬拉西里瓦德納 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 自動化 助理 其它 計算 服務 之間 多模態 交互 | ||
本文描述了用于用戶、自動化助理和其它計算服務之間的多模態交互的技術。在各種實現方式中,用戶可以與自動化助理接洽以便進一步與第三方計算服務接洽。在一些實現方式中,用戶可以使用口頭輸入模態和除口頭模態以外諸如視覺/觸覺模態的輸入模態兩者來前進通過與第三方計算服務相關聯的對話狀態機。
背景技術
人類可以參與與在本文中稱為“自動化助理”(也稱為“聊天機器人”、“交互式個人助理”、“智能個人助理”、“個人話音助理”、“談話代理”等)的交互式軟件應用的人機對話。例如,人類(其在他們與自動化助理交互時可以被稱為“用戶”)可以使用自由形式自然語言輸入來提供命令、查詢和/或請求(在本文中統稱為“查詢”),該自由形式自然語言輸入可以包括被轉換成文本并且然后被處理的有聲話語和/或鍵入的自由形式自然語言輸入。在許多情況下,必須首先例如使用預定義口頭調用短語來“調用”自動化助理。
存在能夠與自動化助理交互的許多計算服務(也稱為“軟件代理”或“代理”)。這些計算服務常常由將在本文中被稱為“第三方”(或“第三方開發者”)的人開發和/或提供,因為提供計算服務的實體常常不直接與提供自動化助理的實體緊密聯系。然而,計算服務不限于由第三方開發的計算服務,并且可以由實現自動化助理的同一實體實現。計算服務可以被配置成解析各種不同的用戶意圖,其中的許多意圖可能無法由自動化助理解析。此類意圖可以涉及但是當前不限于控制或配置智能設備、接收用于執行任務的分步指令以及與在線服務交互。因此,許多自動化助理可以同時地與用戶和第三方計算服務兩者交互,從而有效地作為用戶與第三方之間的調解者或中介。
一些第三方計算服務可以依照對話狀態機操作,這些對話狀態機有效地定義多個狀態以及那些狀態之間的轉變,這些轉變是基于從用戶和/或在別處(例如,傳感器、web服務等)接收到的各種輸入而發生。當用戶在與第三方計算服務的一個或多個對話“輪次(turn)”期間(通過自動化助理作為調解者)提供(口頭的或鍵入的)自由形式自然語言輸入時,與第三方計算服務相關聯的對話狀態機將在各種對話狀態之間前進。最終,對話狀態機可以達到解析用戶的意圖的狀態。
發明內容
隨著自動化助理變得更普遍,專門地設計用來促進與自動化助理交互的計算設備—在本文中稱為“助理設備”—正變得更平凡。許多助理設備使得用戶能夠參與與自動化助理的無接觸交互。例如,助理設備常常包括允許用戶提供有聲話語作為輸入的麥克風。附加地,越來越多的助理設備現在包括顯示能力。
因此,在本文中描述了用于用戶、自動化助理和其它計算服務之間的多模態交互的技術和框架。更特別地但不排他地,本文描述的一些實現方式允許用戶使用除口頭自由形式自然語言輸入以外的輸入模態如視覺/觸覺模態來前進通過與第三方計算服務相關聯的對話狀態機。如本文所使用的,“口頭”將是指能夠由用戶通過與鍵盤交互和/或通過提供有聲話語(其可以使用語音辨識被轉換為文本內容)來提供的自由形式自然語言輸入。附加地或替換地,本文描述的一些實現方式允許用戶觸發與和第三方計算服務相關聯的圖形用戶界面的無接觸交互。在本文中設想了其它變型。提供用于使得用戶能夠使用口頭輸入和非口頭輸入兩者的組合來與第三方服務交互的機制可以促進由健全用戶和具有各式各樣殘疾的用戶兩者對第三方服務的訪問(并且可以減少對于服務的特殊適配版本的需要)。這不僅是因為該機制可以使得用戶能夠以最適于他們的方式與第三方服務交互。
在一些實現方式中,自動化助理可以包括客戶端部分和服務器部分。自動化助理的客戶端部分可以作為“助理應用”在客戶端設備(例如,智能電話、智能手表、助理設備等)上操作。自動化助理的服務器部分可以在一個或多個服務器上操作,這些服務器有時在本文中被稱為“云”計算系統或“云”。在各種實現方式中,客戶端設備可以包括顯示器,該顯示器例如由自動化助理的客戶端部分使用來渲染圖形用戶界面(“GUI”)。在一些實現方式中,GUI可以采取嵌入式web瀏覽器的形式,該嵌入式web瀏覽器基于由第三方計算服務提供的基礎標記語言(例如,HTML、XML)來渲染圖形。GUI的提供可以使得用戶能夠以比單獨通過音頻交互可能的更高效方式與第三方計算服務交互。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880094239.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于原子的電磁場感測元件與測量系統
- 下一篇:節能發送技術





