[發明專利]端到端流關鍵詞檢出在審
| 申請號: | 201980044566.5 | 申請日: | 2019-06-13 |
| 公開(公告)號: | CN112368769A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 拉吉爾·阿爾瓦雷茨·格瓦拉;樸玄振 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/22;G06N3/04 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 端到端流 關鍵詞 檢出 | ||
1.一種方法,包括:
在用戶設備(102)的數據處理硬件(103)處接收輸入幀(210)的序列,每個輸入幀包括表征由所述用戶設備(102)捕獲的流音頻(118)的相應的音頻特征(410);
通過所述數據處理硬件(103),使用記憶神經網絡(300)來生成指示在所述流音頻(118)中存在熱詞的概率分數(350),所述記憶神經網絡(300)包括順序堆疊單值分解過濾器SVDF層(302),其中,每個SVDF層(302)包括至少一個神經元(312),并且每個神經元(312)包括:
相應的存儲器組件(330),所述相應的存儲器組件(330)與對應神經元(312)的相應的存儲器容量相關聯;
第一級(320),所述第一級(320)被配置成單獨地對每個輸入幀(210)的所述相應的音頻特征(410)執行過濾并且將所過濾后的音頻特征(410)輸出到所述相應的存儲器組件(330);以及
第二級(340),所述第二級(340)被配置成對駐留在所述相應的存儲器組件(330)中的所有所過濾后的音頻特征(410)執行過濾;
通過所述數據處理硬件(103)確定所述概率分數(350)是否滿足熱詞檢測閾值;以及
當所述概率分數(350)滿足所述熱詞檢測閾值時,通過所述數據處理硬件(103)在所述用戶設備(102)上發起喚醒過程以用于處理所述熱詞和/或所述音頻流(118)中緊跟所述熱詞之后的一個或多個其他詞語。
2.根據權利要求1所述的方法(600),其中,與用于來自所述SVDF層(302)中的每一個的神經元(312)的所述相應的存儲器組件(330)相關聯的所述存儲器容量的和為所述記憶神經網絡(300)提供與一般講話者講出所述熱詞花費的時間長度成比例的固定存儲器容量。
3.根據權利要求1或者2所述的方法(600),其中,與所述相應的存儲器組件(330)中的至少一個相關聯的相應的存儲器容量不同于與剩余存儲器組件(330)相關聯的相應的存儲器容量。
4.根據權利要求1-3中的任一項所述的方法(600),其中,與所有SVDF層(302)的相應的存儲器組件(330)相關聯的相應的存儲器容量是相同的。
5.根據權利要求1-4中的任一項所述的方法(600),其中,遠程系統(110)在多個訓練輸入音頻序列(400)上訓練所述記憶神經網絡(300),每個訓練輸入音頻序列(400)包括:
輸入幀(210)的序列,每個輸入幀包括表征所述熱詞的語音成分(430)的一個或多個相應的音頻特征(410);和
指派給所述輸入幀(210)的標簽(420),每個標簽(420)指示相應的輸入幀(210)的音頻特征(410)包括所述熱詞的語音成分(430)的概率。
6.根據權利要求5所述的方法(600),其中,對于每個訓練輸入音頻序列(400),訓練所述記憶神經網絡(300)包括:
通過將第一標簽(420)指派給包括所述熱詞的語音成分(430)的所述輸入幀(210)的一部分并且將第二標簽(420)指派給包括所述熱詞的語音成分(430)的所述輸入幀(210)的剩余部分來訓練編碼器部分(310);以及
通過應用指示對應的訓練輸入音頻序列(400)包括所述熱詞或不包括所述熱詞的標簽(420)來訓練解碼器部分(311)。
7.根據權利要求6所述的方法(600),其中,將所述第一標簽(420)指派給所述輸入幀(210)的部分包括:
將所述第一標簽(420)指派給包括表征所述熱詞的最后語音成分(430)的一個或多個相應的音頻特征(410)的至少一個輸入幀(210);以及
將所述第二標簽(420)指派給各自包括表征所述熱詞的剩余語音成分(430)的一個或多個相應的音頻特征(410)的所述剩余輸入幀(210)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980044566.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于功率狀態確定資源控制狀態
- 下一篇:基于CCLM的幀內預測方法和裝置





