[發明專利]語音動作偏置系統有效
| 申請號: | 201710398592.0 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107767865B | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 王波;S.維穆里;B.J.詹姆斯;P.K.古普塔;S.B.霍夫曼 | 申請(專利權)人: | 谷歌公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 邵亞麗 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 動作 偏置 系統 | ||
用于確定安裝在用戶設備上的軟件應用與新語音動作兼容的方法、系統和裝置,其中新語音動作是由軟件應用的應用開發者指明的。識別用于觸發軟件應用執行新語音動作的一個或多個觸發詞語。將自動話音識別器偏置為相對于其他語音動作的觸發詞語更偏好所識別的新語音動作的觸發詞語。獲得由偏置的自動話音識別器生成的發聲的轉錄。確定由偏置的自動話音識別器生成的發聲的轉錄包括所識別的觸發詞語中包括的特定觸發詞語。至少基于確定由偏置的自動話音識別器生成的發聲的轉錄包括特定觸發詞語,觸發新語音動作的執行。
技術領域
本說明書涉及語音動作,并且一種特定實現方式涉及語音動作檢測技術。
背景技術
軟件應用中的一個任務是用戶在執行特定作業時與之交互的一個或多個活動的收集,其中每個活動是在軟件應用中定義的。每個活動是活動類的一個實例,并且總體上集合中的一個或多個活動控制任務的執行的生命周期,使得在任務內執行的多個活動可允許用戶執行該作業。在一些實現方式中,命令可與活動或者與活動有關的動作相關聯,使得用戶對該命令的提交可觸發該活動或動作。特定的意圖可被發射(fire)以觸發活動的開始或動作的執行。從而,為了觸發活動的開始或動作的執行,用戶必須擁有關于跟用于發射與活動或動作相對應的意圖的活動或動作相關聯的命令的知識。
發明內容
本說明書描述了一種平臺,用于將話音識別系統偏置為相對于其他詞語更偏好用于新語音動作的觸發詞語。在本說明書中,新語音動作是由先前安裝的軟件應用的應用開發者指明的語音動作。應用開發者可使用該平臺來提交定義新語音動作的信息,其中該信息指明先前已被發布并安裝在一個或多個用戶設備上的軟件應用、當該新語音動作被用戶發出并被話音識別系統識別時該應用執行的動作、用于觸發該動作的觸發詞語以及該觸發詞語在其中可用來觸發該應用中的該動作的情境。
應用開發者提交的情境可指明當該語音動作應當有效來觸發該應用中的該動作時的用戶設備狀態。設備狀態可包括例如哪個(或哪些)應用在前臺操作(即,當前在設備的用戶界面中活躍)或者在后臺操作(即,當前在設備的用戶界面中隱藏不可見),或者可包括關于應用的具體信息,例如哪個活動當前在運行、哪些活動被包括在活動棧上、當前運行的活動的狀態或者棧上的一個或多個活動的狀態,等等。
當應用開發者提交定義新語音動作的信息時,被設計為服務或工具的平臺可驗證定義新語音動作的信息以確定新語音動作是否與應用兼容,或者以其他方式確定新語音動作是否可被實現。如果新語音動作有效,則通過歸納(induct)定義新語音動作的信息,可以為該語音動作創建一被稱為意圖(intent)并且具有特定格式的被動數據結構的新實例。意圖可指明定義新語音動作的信息中的一些或全部,例如應用、觸發詞語、響應于檢測到該觸發詞語要觸發的活動或動作以及該觸發詞語觸發該活動或動作所必要的情境。隨后可為該應用部署該語音動作,使得該語音動作對于該應用成為使能的語音動作,而無需對應用代碼做出額外的更改來支持該語音動作。
一旦已部署了語音動作,操作用戶設備的用戶就可提供話音輸入。用戶設備可以提交關于用戶設備的情境信息,并且情境信息和話音輸入的轉錄(transcription)可用于識別意圖并且觸發所識別的意圖。當意圖被觸發時,用于執行活動或動作的數據被確定,并且被發送到用戶設備以響應于該語音輸入而執行該活動或動作。
每個新語音動作與一個或多個觸發詞語相關聯,這些觸發詞語的發音可與用于其他語音動作的觸發詞語相似,或者其發音可與不是語音動作的其他單詞相似。從而,在一些實現方式中,系統可偏置自動話音識別器以使得自動話音識別器更有可能確定接收到的語音輸入包括用于新語音動作的觸發詞語。為了偏置自動話音識別器,平臺可確定用戶設備的情境并且可偏置用于轉錄用戶話音的自動話音識別器以識別對于該情境使能的觸發詞語。例如,在用戶向用戶設備提供口頭輸入之時,用戶設備的情境或者安裝在用戶設備上的一個或多個應用的情境可被確定。隨后可基于情境識別可用來被觸發的語音動作,并且可調整自動話音識別器以對口頭輸入中的觸發詞語的識別進行偏置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌公司,未經谷歌公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710398592.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:工控機與傳感器的一體化結構
- 下一篇:用于帶頭模塊的引線接合電研磨導件





