[發明專利]小尺寸多通道關鍵字定位在審

申請號：	202080093004.2	申請日：	2020-01-15
公開（公告）號：	CN114945980A	公開（公告）日：	2022-08-26
發明（設計）人：	沃紀龍;黃亦騰	申請（專利權）人：	谷歌有限責任公司
主分類號：	G10L15/16	分類號：	G10L15/16;G10L15/28
代理公司：	上海華誠知識產權代理有限公司 31300	代理人：	肖華
地址：	美國加利***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	尺寸通道關鍵字定位
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種方法(800)，其特征在于，所述方法(800)包括：

在用戶設備(102)的數據處理硬件(103)處接收表征由與所述數據處理硬件(103)進行通信的麥克風(107)陣列所捕獲的流傳輸多通道音頻(118)的輸入幀(210)序列，所述流傳輸多通道音頻(118)的每個通道(119)包括由所述麥克風(107)陣列中的單獨專用麥克風(107)所捕獲的相應音頻特征(510)；

對于每個輸入幀(210)：

由所述數據處理硬件(103)使用記憶神經網絡(300)的三維(3D)奇異值分解過濾器(SVDF)輸入層(302)來并行地處理所述流傳輸多通道音頻(118)的每個通道(119)的所述相應音頻特征(510)；以及

由所述數據處理硬件(103)使用所述記憶神經網絡(300)的中間層(410)，基于所述流傳輸多通道音頻(118)的每個通道(119)的所述相應音頻特征(510)的連接(344)來生成對應的多通道音頻特征表示(420)；

由所述數據處理硬件(103)使用所述記憶神經網絡(300)的順序堆疊的SVDF層(350)，基于每個輸入幀(210)的所述對應的多通道音頻特征表示(420)來生成指示所述流傳輸多通道音頻(118)中熱字的存在的概率分數(360)；

由所述數據處理硬件(103)確定所述概率分數(360)是否滿足熱字檢測閾值；以及

當所述概率分數(360)滿足所述熱字檢測閾值時，由所述數據處理硬件(103)在所述用戶設備(102)上啟動喚醒處理，用于處理所述熱字和/或所述流傳輸多通道音頻(118)中的所述熱字之后的一個或多個其它術語。

2.根據權利要求1所述的方法(800)，其特征在于，所述3D SVDF輸入層(302)包括多個并行的SVDF處理單體(304)，所述多個并行的SVDF處理單體(304)中的每個SVDF處理單體(304)與所述流傳輸多通道音頻(118)的相應通道(119)相關聯，并且被配置為對所述相應通道(119)的所述相應音頻特征(510)進行所述處理。

3.根據權利要求2所述的方法(800)，其特征在于，每個SVDF處理單體(304)包括至少一個神經元(312)，并且每個神經元(312)包括：

相應記憶組件(330)，所述相應記憶組件(330)與所述對應的神經元(312)的相應記憶容量相關聯；

第一級(320)，所述第一級(320)被配置為分別對每個輸入幀(210)的所述相應通道(119)的所述相應音頻特征(510)進行過濾，并且將過濾特征(322)輸出到所述相應記憶組件(330)；以及

第二級(340)，所述第二級(340)被配置為對駐留在所述相應記憶組件(330)中的所有的所述過濾音頻特征(322)進行過濾。

4.根據權利要求2或3所述的方法(800)，其特征在于，每個輸入幀(210)的每個相應通道(119)的所述相應音頻特征(510)包括日志過濾器組。

5.根據權利要求4所述的方法(800)，其特征在于，每個輸入幀(210)包括四十個日志過濾器組。

6.根據權利要求1-5中任一項所述的方法(800)，其特征在于，所述記憶神經網絡(300)的所述順序堆疊的SVDF層(350)包括初始SVDF層(350a)，所述初始SVDF層(350a)被配置為按順序接收每個輸入幀(210)的所述對應的多通道音頻特征表示(420)。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司，未經谷歌有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202080093004.2/1.html，轉載請聲明來源鉆瓜專利網。