[發明專利]小尺寸多通道關鍵字定位在審
| 申請號: | 202080093004.2 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN114945980A | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 沃紀龍;黃亦騰 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/28 |
| 代理公司: | 上海華誠知識產權代理有限公司 31300 | 代理人: | 肖華 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 尺寸 通道 關鍵字 定位 | ||
1.一種方法(800),其特征在于,所述方法(800)包括:
在用戶設備(102)的數據處理硬件(103)處接收表征由與所述數據處理硬件(103)進行通信的麥克風(107)陣列所捕獲的流傳輸多通道音頻(118)的輸入幀(210)序列,所述流傳輸多通道音頻(118)的每個通道(119)包括由所述麥克風(107)陣列中的單獨專用麥克風(107)所捕獲的相應音頻特征(510);
對于每個輸入幀(210):
由所述數據處理硬件(103)使用記憶神經網絡(300)的三維(3D)奇異值分解過濾器(SVDF)輸入層(302)來并行地處理所述流傳輸多通道音頻(118)的每個通道(119)的所述相應音頻特征(510);以及
由所述數據處理硬件(103)使用所述記憶神經網絡(300)的中間層(410),基于所述流傳輸多通道音頻(118)的每個通道(119)的所述相應音頻特征(510)的連接(344)來生成對應的多通道音頻特征表示(420);
由所述數據處理硬件(103)使用所述記憶神經網絡(300)的順序堆疊的SVDF層(350),基于每個輸入幀(210)的所述對應的多通道音頻特征表示(420)來生成指示所述流傳輸多通道音頻(118)中熱字的存在的概率分數(360);
由所述數據處理硬件(103)確定所述概率分數(360)是否滿足熱字檢測閾值;以及
當所述概率分數(360)滿足所述熱字檢測閾值時,由所述數據處理硬件(103)在所述用戶設備(102)上啟動喚醒處理,用于處理所述熱字和/或所述流傳輸多通道音頻(118)中的所述熱字之后的一個或多個其它術語。
2.根據權利要求1所述的方法(800),其特征在于,所述3D SVDF輸入層(302)包括多個并行的SVDF處理單體(304),所述多個并行的SVDF處理單體(304)中的每個SVDF處理單體(304)與所述流傳輸多通道音頻(118)的相應通道(119)相關聯,并且被配置為對所述相應通道(119)的所述相應音頻特征(510)進行所述處理。
3.根據權利要求2所述的方法(800),其特征在于,每個SVDF處理單體(304)包括至少一個神經元(312),并且每個神經元(312)包括:
相應記憶組件(330),所述相應記憶組件(330)與所述對應的神經元(312)的相應記憶容量相關聯;
第一級(320),所述第一級(320)被配置為分別對每個輸入幀(210)的所述相應通道(119)的所述相應音頻特征(510)進行過濾,并且將過濾特征(322)輸出到所述相應記憶組件(330);以及
第二級(340),所述第二級(340)被配置為對駐留在所述相應記憶組件(330)中的所有的所述過濾音頻特征(322)進行過濾。
4.根據權利要求2或3所述的方法(800),其特征在于,每個輸入幀(210)的每個相應通道(119)的所述相應音頻特征(510)包括日志過濾器組。
5.根據權利要求4所述的方法(800),其特征在于,每個輸入幀(210)包括四十個日志過濾器組。
6.根據權利要求1-5中任一項所述的方法(800),其特征在于,所述記憶神經網絡(300)的所述順序堆疊的SVDF層(350)包括初始SVDF層(350a),所述初始SVDF層(350a)被配置為按順序接收每個輸入幀(210)的所述對應的多通道音頻特征表示(420)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080093004.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電吸收調制激光器和光模塊
- 下一篇:放大的空芯光纖傳輸





