[發明專利]解析自動化助理請求的方法有效
| 申請號: | 201880032505.2 | 申請日: | 2018-05-15 |
| 公開(公告)號: | CN110637284B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 易卜拉欣·巴德爾;尼爾斯·格里姆斯莫;格克汗·巴克爾 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06F3/16 | 分類號: | G06F3/16;G06F16/583;G06F16/9032;G06K9/00;H04L12/58 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解析 自動化 助理 請求 方法 | ||
描述了方法、裝置和計算機可讀介質,其與響應于確定與傳感器數據可能捕捉的環境對象有關的請求而使得執行對所述傳感器數據的處理有關。一些實施方式還涉及基于對所述傳感器數據的處理來確定所述請求是否可解析。當確定所述請求不可解析時,則提示被確定并且被提供作為用戶界面輸出,其中所述提示提供關于進一步輸入的指導,所述進一步輸入將使所述請求能夠被解析。在那些實施方式中,然后能夠利用響應于所述提示而接收到的進一步輸入(例如,附加傳感器數據和/或用戶界面輸入)解析所述請求。
背景技術
能夠利用圖像處理來解析圖像中的對象的屬性。例如,一些圖像處理技術利用圖像處理引擎來解析圖像中捕捉的對象的分類。例如,對于捕捉帆船的圖像,能夠執行圖像處理以解析圖像的“boat(船)”和/或“sailboat(帆船)”的分類值。能夠使用圖像處理來解析另外的屬性或替代屬性。例如,能夠使用光學字符識別(OCR)來解析圖像中的文本。而且,例如,能夠使用一些圖像處理技術來確定圖像中的對象的更特定分類(例如,帆船的特定品牌和/或型號)。
一些圖像處理引擎利用一種或多種機器學習模型,諸如深度神經網絡模型,該模型接受圖像作為輸入,并且利用學習的參數基于圖像來生成指示圖像中存在多個對應的屬性中的哪一個的測度作為輸出。如果測度指示圖像中存在特定屬性(例如,如果測度滿足閾值),則能夠將該屬性視為該圖像“已解析”(即該屬性能夠被視為存在于圖像中)。然而,通常可能是圖像的圖像處理可能無法解析一個或多個(例如,任何)屬性的情況。此外,還可能是這樣的情況:圖像的所解析的屬性無法以期望的特異性程度定義圖像中的對象。例如,圖像的所解析屬性可以使得能夠確定圖像中是否存在“shirt(襯衫)”,并且襯衫為“red(紅色)”——但可能無法襯衫的制造商,襯衫是“short sheeve(短袖)”還是“long sheeve(長袖)”等。
另外,人類可以使用本文稱為“自動化助理”(也稱為“交互式個人助理”、“智能個人助理”、“個人語音助理”、“會話代理”等)的交互式軟件應用參與人機對話。自動化助理通常會從用戶那里接收自然語言輸入(話語)。在一些情況下,自然語言輸入能夠作為音頻輸入(例如,流音頻)被接收并且被轉換為文本和/或作為(例如,鍵入的)文本自然語言輸入被接收。自動化助理使用響應內容(例如,視覺和/或聽覺自然語言輸出)來響應自然語言輸入。然而,經常可能是自動化助理不接受和/或響應于基于捕捉環境對象的一個或多個屬性的傳感器數據(例如,圖像)的請求。
發明內容
本文所述的實施方式涉及響應于確定與可能被傳感器數據捕捉的環境對象相關的請求而使得執行對傳感器數據的處理。例如,能夠響應于基于結合至少一個圖像的捕捉而由用戶提供的自然語言輸入(例如,在該至少一個圖像的捕捉不久之前、之后和/或期間接收的自然語言)而確定的請求來對圖像執行圖像處理。例如,用戶能夠通過客戶端設備的自動化助理界面提供“what's wrong with my device(我的設備怎么了)”的語音輸入。能夠確定語音輸入與環境對象相關,結果,能夠對由客戶端設備的相機捕捉的圖像執行圖像處理。能夠基于單獨的用戶界面輸入(例如,對“image capture(圖像捕捉)”界面元素的選擇)由相機捕捉圖像,或者能夠響應于確定語音輸入與環境對象相關而自動捕捉圖像。
本文所述的一些實施方式還涉及基于對傳感器數據的處理來確定請求是否是可解析的。例如,基于確定以對至少一個圖像的圖像處理為基礎而解析的一個或多個屬性(如果存在)未能以目標特異性程度定義對象,能夠將請求確定為是不可解析的。當確定請求是不可解析的時,則提示被確定并且被提供作為用戶界面輸出(例如,可聽和/或圖形),其中提示提供了關于將使請求能夠被解析的進一步輸入的指導。提示能夠指示用戶捕捉對象的其它傳感器數據(例如,圖像、音頻、溫度傳感器數據、重量傳感器數據)和/或將對象(和/或其它對象)移動以使得能夠捕捉對象的其它傳感器數據。例如,提示能夠被定制以使得能夠捕捉附加圖像,這些附加圖像使得能夠對基于對至少一個圖像的圖像處理而未解析的一個或多個屬性的解析。提示能夠另外地或可替選地請求用戶提供針對對象的未解析屬性的用戶界面輸入(例如,自然語言輸入)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880032505.2/2.html,轉載請聲明來源鉆瓜專利網。





