[發(fā)明專利]多設(shè)備上的熱詞檢測在審
| 申請?zhí)枺?/td> | 201780052132.0 | 申請日: | 2017-08-02 |
| 公開(公告)號: | CN109791763A | 公開(公告)日: | 2019-05-21 |
| 發(fā)明(設(shè)計)人: | D.M.卡薩多;A.H.格倫斯坦;J.N.弗斯特 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 邵亞麗 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 熱詞 計算設(shè)備 音頻數(shù)據(jù) 預(yù)定義 計算機(jī)存儲介質(zhì) 自動語音識別器 標(biāo)識計算設(shè)備 話語 計算機(jī)程序 創(chuàng)新方面 計算資源 語音識別 多設(shè)備 檢測 發(fā)送 指令 | ||
公開了用于在多個設(shè)備上進(jìn)行熱詞檢測的方法、系統(tǒng)和裝置,包括編碼在計算機(jī)存儲介質(zhì)上的計算機(jī)程序。當(dāng)用戶說出熱詞時,在多于一個設(shè)備在用戶附近的情況下,本說明書中描述的主題的創(chuàng)新方面減少了計算資源的使用。在一個方面,一種方法包括接收與話語對應(yīng)的音頻數(shù)據(jù)的動作。動作還包括確定話語可能包含特定的預(yù)定義熱詞。動作還包括發(fā)送(i)指示計算設(shè)備可能接收到特定的預(yù)定義熱詞的數(shù)據(jù),(ii)標(biāo)識計算設(shè)備的數(shù)據(jù),以及(iii)標(biāo)識一組附近的計算設(shè)備的數(shù)據(jù)。動作還包括接收開始語音識別的指令。動作還包括使用計算設(shè)備上的自動語音識別器處理音頻數(shù)據(jù)的至少一部分。
相關(guān)申請的交叉引用
本申請要求2016年8月24日提交的美國臨時申請No.62/378,869和2016年9月28日提交的美國申請No.15/278,269的權(quán)益,通過引用將上述申請的內(nèi)容結(jié)合于此。
技術(shù)領(lǐng)域
本說明書總體涉及自動語音識別。
背景技術(shù)
啟用語音(speech-enabled)的家庭或其他環(huán)境——即,用戶僅需要大聲說出查詢或命令而后基于計算機(jī)的系統(tǒng)將登場并回答查詢和/或使得命令被執(zhí)行的環(huán)境——離我們越來越近。可以使用遍布在各個房間或環(huán)境的各個區(qū)域中的連接的麥克風(fēng)設(shè)備的網(wǎng)絡(luò)來實現(xiàn)啟用語音的環(huán)境(例如,家庭、工作場所、學(xué)校等)。通過這樣的麥克風(fēng)網(wǎng)絡(luò),用戶能夠基本上從環(huán)境中的任何地方口頭查詢系統(tǒng),而無需在他/她面前或甚至附近有計算機(jī)或其他設(shè)備。例如,當(dāng)在廚房中烹飪時,用戶可能會詢問系統(tǒng)“三杯有多少毫升?”,并且作為響應(yīng),用戶從系統(tǒng)接收回答,例如以合成語音的形式輸出。替代地,用戶可以詢問系統(tǒng)問題,例如“我最近的加油站何時關(guān)閉”,或者在準(zhǔn)備離開房屋時,“我今天應(yīng)該穿上大衣嗎?”。
此外,用戶可以詢問對系統(tǒng)的查詢,和/或發(fā)出與用戶的個人信息有關(guān)的命令。例如,用戶可以詢問系統(tǒng)“我何時與約翰見面?”或命令系統(tǒng)“提醒我回家后給約翰打電話”。
發(fā)明內(nèi)容
對于啟用語音的系統(tǒng),用戶與系統(tǒng)交互的方式被設(shè)計為主要(如果不是排他地)通過語音輸入。因此,潛在地拾取在周圍環(huán)境中發(fā)出的所有話語(包括那些不針對系統(tǒng)的話語)的系統(tǒng),可以有某種方式來辨別何時任何給定的話語是針對系統(tǒng),而不是例如針對存在于環(huán)境中的個人。實現(xiàn)這的一種方式是使用熱詞,其通過環(huán)境中的用戶之間的協(xié)議被保留作為預(yù)定的詞語,其被說出以引起系統(tǒng)的注意。在示例環(huán)境中,用于引起系統(tǒng)注意的熱詞是詞語“OK計算機(jī)”。因此,每次說出詞語“OK計算機(jī)”時,它都會被麥克風(fēng)拾取,傳送到系統(tǒng),系統(tǒng)可以執(zhí)行語音識別技術(shù)或使用音頻特征和神經(jīng)網(wǎng)絡(luò)來確定是否說出了熱詞,并且如果是,則等待隨后的命令或查詢。因此,針對系統(tǒng)的話語采用[熱詞(HOTWORD)][查詢(QUERY)]的一般形式,其中“熱詞”在這個例子中是“OK計算機(jī)”,而“查詢”可以是任何問題、命令、聲明或可以被語音識別、解析和系統(tǒng)(單獨或經(jīng)由網(wǎng)絡(luò)與服務(wù)器一起)據(jù)此行事的其他請求。
本文描述的主題的創(chuàng)新方面涉及用于多設(shè)備上的熱詞檢測的方法、系統(tǒng)和裝置,包括編碼在計算機(jī)存儲介質(zhì)上的計算機(jī)程序。各種實施方式被配置成使得當(dāng)用戶說出熱詞時,在多于一個設(shè)備在用戶附近的情況下,減少了計算資源的使用。
本說明書中描述的主題的創(chuàng)新方面可以體現(xiàn)在包括以下動作的方法中:由計算設(shè)備接收與話語對應(yīng)的音頻數(shù)據(jù);確定話語可能包含特定的預(yù)定義熱詞;響應(yīng)于確定話語可能包含特定的預(yù)定義熱詞,向服務(wù)器發(fā)送:(i)指示計算設(shè)備可能接收到特定的預(yù)定義熱詞的數(shù)據(jù),(ii)標(biāo)識計算設(shè)備的數(shù)據(jù),以及(iii)標(biāo)識包括計算設(shè)備的一組附近的計算設(shè)備的數(shù)據(jù);從服務(wù)器接收開始對音頻數(shù)據(jù)進(jìn)行語音識別處理的指令;以及響應(yīng)于接收開始對音頻數(shù)據(jù)進(jìn)行語音識別處理的指令,使用計算設(shè)備上的自動語音識別器處理音頻數(shù)據(jù)的至少一部分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780052132.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:語音接口設(shè)備的噪聲降低
- 下一篇:基于話音的通信
- 一種音頻調(diào)整方法、終端及計算機(jī)可讀存儲介質(zhì)
- 音頻數(shù)據(jù)識別方法及系統(tǒng)
- 消除背景音頻數(shù)據(jù)的方法、裝置和系統(tǒng)
- 音頻數(shù)據(jù)確定方法、裝置、設(shè)備和介質(zhì)
- 音頻分類的方法、裝置、設(shè)備以及存儲介質(zhì)
- 一種音頻處理方法及電子設(shè)備
- 一種音頻傳輸方法和裝置
- 一種音頻數(shù)據(jù)生成方法、音頻數(shù)據(jù)轉(zhuǎn)寫方法及其裝置
- 語音數(shù)據(jù)的處理方法、裝置及電子設(shè)備
- 模型訓(xùn)練、數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)





