[發(fā)明專利]小尺寸多通道關(guān)鍵字定位在審
| 申請?zhí)枺?/td> | 202080093004.2 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN114945980A | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設(shè)計)人: | 沃紀龍;黃亦騰 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/28 |
| 代理公司: | 上海華誠知識產(chǎn)權(quán)代理有限公司 31300 | 代理人: | 肖華 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 尺寸 通道 關(guān)鍵字 定位 | ||
一種檢測說出的話語(120)中的熱字的方法(800)包括,接收表征流傳輸多通道音頻(118)的輸入幀(210)序列。流傳輸多通道音頻的每個通道(119)包括由單獨專用麥克風(fēng)(107)所捕獲的相應(yīng)音頻特征(510)。對于每個輸入幀,該方法包括,使用記憶神經(jīng)網(wǎng)絡(luò)(300)的三維(3D)奇異值分解過濾器(SVDF)輸入層(302)來并行地處理每個通道的相應(yīng)音頻特征,以及基于相應(yīng)音頻特征的連接(344)來生成對應(yīng)的多通道音頻特征表示(420)。該方法還包括,使用順序堆疊的SVDF層(350)來生成指示音頻中熱字的存在的概率分數(shù)(360)。該方法還包括,確定概率分數(shù)是否滿足閾值,以及當(dāng)滿足時,在用戶設(shè)備(102)上啟動喚醒處理。
技術(shù)領(lǐng)域
本公開涉及流傳輸音頻中的小尺寸(small footprint)多通道關(guān)鍵字定位。
背景技術(shù)
語音使能環(huán)境(例如,家庭、工作場所、學(xué)校、汽車等)允許用戶向基于計算機的系統(tǒng)大聲地說出查詢或命令,該基于計算機的系統(tǒng)處理并回答該查詢和/或基于該命令執(zhí)行功能??梢允褂猛ㄟ^該環(huán)境的各種房間或區(qū)域分布的連接的麥克風(fēng)設(shè)備的網(wǎng)絡(luò)來實施語音使能環(huán)境。這些設(shè)備可以使用熱字(hotword)來幫助辨別給定的話語何時指向該系統(tǒng),而不是指向該環(huán)境中存在的另一個人的話語。因此,設(shè)備可以在睡眠狀態(tài)或休眠狀態(tài)下運行,并且僅當(dāng)檢測到的話語包括熱字時喚醒。這些設(shè)備可以包括兩個或更多個麥克風(fēng)以記錄多通道音頻。神經(jīng)網(wǎng)絡(luò)最近已經(jīng)成為一種有吸引力的解決方案,用于訓(xùn)練模型來檢測用戶在流傳輸音頻中說出的熱字。通常,用于檢測流傳輸音頻中的熱字的神經(jīng)網(wǎng)絡(luò)接收單通道的流傳輸音頻。
發(fā)明內(nèi)容
本公開的一個方面提供了一種用于訓(xùn)練記憶神經(jīng)網(wǎng)絡(luò)并且使用訓(xùn)練后的記憶神經(jīng)網(wǎng)絡(luò)來檢測說出的話語中的熱字的方法。方法包括,在用戶設(shè)備的數(shù)據(jù)處理硬件處接收表征由與數(shù)據(jù)處理硬件進行通信的麥克風(fēng)陣列所捕獲的流傳輸多通道音頻的輸入幀序列。流傳輸多通道音頻的每個通道包括由麥克風(fēng)陣列中的單獨專用麥克風(fēng)所捕獲的相應(yīng)音頻特征。對于每個輸入幀,方法包括,由數(shù)據(jù)處理硬件使用記憶神經(jīng)網(wǎng)絡(luò)的三維(3D)奇異值分解過濾器(SVDF)輸入層來并行地處理流傳輸多通道音頻的每個通道的相應(yīng)音頻特征,以及由數(shù)據(jù)處理硬件使用記憶神經(jīng)網(wǎng)絡(luò)的中間層,基于流傳輸多通道音頻的每個通道的相應(yīng)音頻特征的連接來生成對應(yīng)的多通道音頻特征表示。方法還包括,由數(shù)據(jù)處理硬件使用記憶神經(jīng)網(wǎng)絡(luò)的順序堆疊的SVDF層,基于每個輸入幀的對應(yīng)的多通道音頻特征表示來生成指示流傳輸多通道音頻中熱字的存在的概率分數(shù)。方法還包括,由數(shù)據(jù)處理硬件確定概率分數(shù)是否滿足熱字檢測閾值。當(dāng)概率分數(shù)滿足熱字檢測閾值時,方法包括,由數(shù)據(jù)處理硬件在用戶設(shè)備上啟動喚醒處理,用于處理熱字和/或流傳輸多通道音頻中的熱字之后的一個或多個其它術(shù)語。
本公開的實施方式可以包括以下可選特征中的一個或多個。在一些實施方式中,3D SVDF輸入層包括多個并行的SVDF處理單體。多個并行的SVDF處理單體中的每個SVDF處理單體與流傳輸多通道音頻的相應(yīng)通道相關(guān)聯(lián),并且被配置為對相應(yīng)通道的相應(yīng)音頻特征進行處理。在一些示例中,每個SVDF處理單體包括至少一個神經(jīng)元,并且每個神經(jīng)元包括相應(yīng)記憶組件、第一級以及第二級,該第一級被配置為分別對每個輸入幀的相應(yīng)通道的相應(yīng)音頻特征進行過濾,并且將過濾特征輸出到相應(yīng)記憶組件,該第二級被配置為對駐留在相應(yīng)記憶組件中的所有的過濾音頻特征進行過濾。相應(yīng)記憶組件與對應(yīng)的神經(jīng)元的相應(yīng)記憶容量相關(guān)聯(lián)。
可選地,每個輸入幀的每個相應(yīng)通道的相應(yīng)音頻特征包括日志過濾器組。每個輸入幀可以包括四十個日志過濾器組。在一些示例中,記憶神經(jīng)網(wǎng)絡(luò)的順序堆疊的SVDF層包括初始SVDF層,該初始SVDF層被配置為按順序接收每個輸入幀的對應(yīng)的多通道音頻特征表示。
在一些實施方式中,每個順序堆疊的SVDF層包括至少一個神經(jīng)元,并且每個神經(jīng)元包括相應(yīng)記憶組件、第一級以及第二級,該第一級被配置為分別對每個輸入幀的對應(yīng)的多通道音頻特征表示進行過濾,并且將過濾多通道音頻特征表示輸出到相應(yīng)記憶組件,該第二級被配置為對駐留在相應(yīng)記憶組件中的所有的過濾多通道音頻特征表示進行過濾。相應(yīng)記憶組件與對應(yīng)的神經(jīng)元的相應(yīng)記憶容量相關(guān)聯(lián)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080093004.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種電吸收調(diào)制激光器和光模塊
- 下一篇:放大的空芯光纖傳輸





