[發(fā)明專(zhuān)利]基于脈沖神經(jīng)網(wǎng)絡(luò)的語(yǔ)音喚醒方法、裝置及電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110581302.2 | 申請(qǐng)日: | 2021-05-26 |
| 公開(kāi)(公告)號(hào): | CN113160823A | 公開(kāi)(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 肖揚(yáng);羅濤;施佳子;于海燕 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)工商銀行股份有限公司 |
| 主分類(lèi)號(hào): | G10L15/22 | 分類(lèi)號(hào): | G10L15/22;G10L15/08;G10L25/18;G10L25/24;G10L25/27;G10L25/30;G10L25/45 |
| 代理公司: | 中科專(zhuān)利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 李春偉 |
| 地址: | 100140 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 脈沖 神經(jīng)網(wǎng)絡(luò) 語(yǔ)音 喚醒 方法 裝置 電子設(shè)備 | ||
1.一種基于脈沖神經(jīng)網(wǎng)絡(luò)的語(yǔ)音喚醒方法,其中,所述脈沖神經(jīng)網(wǎng)絡(luò)包括特征提取層、學(xué)習(xí)分類(lèi)層以及輸出層,所述語(yǔ)音喚醒方法包括:
獲取語(yǔ)音信號(hào),所述語(yǔ)音信號(hào)包括具有開(kāi)始點(diǎn)和結(jié)束點(diǎn)的聲波信號(hào);
通過(guò)所述特征提取層對(duì)所述語(yǔ)音信號(hào)進(jìn)行特征提取,得到脈沖序列;
通過(guò)學(xué)習(xí)分類(lèi)層對(duì)所述脈沖序列進(jìn)行分類(lèi),得到分類(lèi)結(jié)果,并通過(guò)所述輸出層輸出所述分類(lèi)結(jié)果;以及
基于所述分類(lèi)結(jié)果判斷是否喚醒目標(biāo)設(shè)備。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音喚醒方法,其中,所述特征提取層包括預(yù)處理層、第一特征提取層以及第二特征提取層。
3.根據(jù)權(quán)利要求2所述的語(yǔ)音喚醒方法,其中,所述通過(guò)所述特征提取層對(duì)所述語(yǔ)音信號(hào)進(jìn)行特征提取,得到脈沖序列包括:
使用所述預(yù)處理層對(duì)所述語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到時(shí)域信號(hào);
使用所述第一特征提取層對(duì)所述時(shí)域信號(hào)進(jìn)行特征提取,得到梅爾頻率信息;以及
使用所述第二特征提取層對(duì)所述梅爾頻率信息進(jìn)行特征提取,得到所述脈沖序列。
4.根據(jù)權(quán)利要求3所述的語(yǔ)音喚醒方法,其中,所述使用所述預(yù)處理層對(duì)所述語(yǔ)音信號(hào)進(jìn)行預(yù)處理,得到時(shí)域信號(hào)包括:
采用一階類(lèi)高通濾波器對(duì)所述語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,以提高所述語(yǔ)音信號(hào)中的高頻部分;以及
在所述預(yù)加重處理之后,對(duì)所述語(yǔ)音信號(hào)進(jìn)行分幀,得到語(yǔ)音信號(hào)幀,使用窗函數(shù)對(duì)所述語(yǔ)音信號(hào)幀加窗處理,得到所述時(shí)域信號(hào)。
5.根據(jù)權(quán)利要求4所述的語(yǔ)音喚醒方法,其中,所述使用所述第一特征提取層對(duì)所述時(shí)域信號(hào)進(jìn)行特征提取,得到梅爾頻率信息包括:
獲取所述時(shí)域信號(hào),對(duì)所述時(shí)域信號(hào)與所述窗函數(shù)的乘積進(jìn)行短時(shí)傅里葉變換,以將所述時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào);
將所述頻域信號(hào)在時(shí)間上進(jìn)行堆疊,以生成頻譜圖,其中,所述頻譜圖包含頻率信息;以及
將至少一個(gè)梅爾濾波器組應(yīng)用于所述頻譜圖中,以將所述頻譜圖中的頻率信息轉(zhuǎn)換為梅爾頻率信息。
6.根據(jù)權(quán)利要求5所述的語(yǔ)音喚醒方法,其中,所述使用所述第一特征提取層對(duì)所述時(shí)域信號(hào)進(jìn)行特征提取,得到梅爾頻率信息還包括:
得到所述梅爾頻率信息后,計(jì)算所述至少一個(gè)梅爾濾波器組中的每一個(gè)輸出的對(duì)數(shù)能量。
7.根據(jù)權(quán)利要求5所述的語(yǔ)音喚醒方法,其中,所述使用所述第二特征提取層對(duì)所述梅爾頻率信息進(jìn)行特征提取,得到所述脈沖序列包括:
通過(guò)時(shí)滯編碼方式對(duì)所述梅爾頻率信息進(jìn)行編碼,以將所述梅爾頻率轉(zhuǎn)換為脈沖信息;以及
通過(guò)K-SVD算法獲得所述脈沖信息的字典,計(jì)算所述脈沖信息局部信息與所述字典之間的距離,通過(guò)所述距離確定最佳匹配碼本,通過(guò)所述最佳匹配碼本將所述脈沖信息轉(zhuǎn)換為所述脈沖序列。
8.根據(jù)權(quán)利要求1所述的語(yǔ)音喚醒方法,其中,所述基于所述分類(lèi)結(jié)果判斷是否喚醒目標(biāo)設(shè)備包括:
若所述分類(lèi)結(jié)果與多個(gè)預(yù)設(shè)關(guān)鍵詞中的至少一個(gè)屬于同一類(lèi)別,則喚醒所述目標(biāo)設(shè)備;以及
若所述分類(lèi)結(jié)果與多個(gè)預(yù)設(shè)關(guān)鍵詞中每一個(gè)屬于不同類(lèi)別,則不喚醒所述目標(biāo)設(shè)備。
9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的語(yǔ)音喚醒方法,其中,在所述獲取語(yǔ)音信號(hào)之前,所述喚醒方法還包括:
采用端點(diǎn)檢測(cè)方法檢測(cè)接收的聲波信號(hào),確定所述聲波信號(hào)中包含語(yǔ)音內(nèi)容的開(kāi)始點(diǎn)和結(jié)束點(diǎn),并對(duì)非語(yǔ)音內(nèi)容進(jìn)行刪除,得到所述語(yǔ)音信號(hào)。
10.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的語(yǔ)音喚醒方法,其中,所述學(xué)習(xí)分類(lèi)層通過(guò)Tempotron算法對(duì)所述脈沖序列進(jìn)行分類(lèi)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)工商銀行股份有限公司,未經(jīng)中國(guó)工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110581302.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:工程化的Cas12i核酸酶及其效應(yīng)蛋白以及用途
- 下一篇:一種網(wǎng)點(diǎn)客流量的預(yù)測(cè)方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





