[發明專利]語音喚醒方法和裝置在審
| 申請號: | 202011630785.2 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112767952A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 薛少飛 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L17/22 | 分類號: | G10L17/22;G10L17/18;G10L17/04;G10L17/02 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 喚醒 方法 裝置 | ||
1.一種語音喚醒方法,包括:
將原始音頻輸入至使用sinc函數來構造帶通濾波器,其中,所述濾波器形成特殊卷積層,所述濾波器的參數為最高截止頻率和最低截止頻率;
將經過所述濾波器處理后的音頻依次經過多重處理并最終輸入到第一DNN層,其中,所述第一DNN層與記憶塊連接,所述記憶塊種存儲有從當前時刻往前N幀至往后M幀的數據;
將所述記憶塊種存儲的數據與所述第一DNN層的輸出數據求和之后經過第一激活函數處理后作為第二DNN層的輸入,其中,所述第二DNN層的數量和所述記憶塊的數量為大于等于1的自然數;
將最后一個第二DNN層輸出的數據經過第二激活函數的處理得到最終輸出后驗得分。
2.根據權利要求1所述的方法,在將最后一個第二DNN層輸出的數據經過第二激活函數的處理得到最終輸出后驗得分之后,所述方法包括:
基于所述后驗得分和預設喚醒閾值判斷所述原始音頻是否能夠喚醒設備。
3.根據權利要求1所述的方法,其中,與所述第一DNN層連接的記憶塊的表達式如下:
其中,中h(t-i)和h(t+j)分別為t-i時刻和t+j時刻該DNN層的值,ai和cj分別為相應的權重系數。
4.根據權利要求3所述的方法,其中,所述第一DNN層與所述記憶塊形成,和/或所述第二DNN層與后續的記憶塊,形成DNN-記憶塊結構,所述DNN-記憶塊結構的輸出為:
其中,f為激活函數,包括Relu函數,w和w~為需要學習的權重,b為偏置。
5.根據權利要求1所述的方法,其中,所述將原始音頻輸入至使用sinc函數來構造帶通濾波器包括:
對所述原始音頻進行分幀,首次分幀時以長度為a毫秒的音頻數據為一幀,后續分幀時以b毫秒獲得下一幀;
將分幀后的每一幀數據作為所述濾波器的原始輸入。
6.根據權利要求1-5中任一項所述的方法,其中,所述sinc函數構造的帶通濾波器形成sinc層,所述sinc層包括使用如下方式實現:
令x[n]為某一幀的原始音頻信號,h[n]為長度為L的一維卷積核,則卷積后的輸出為:y[n]=x[n]*h[n];
其中,h[n]=(2f2sinc(2πf2n)-2f1sinc(2πf1n))w[n],
f1和f2分別為網絡需要學習的最高截止頻率和最低截止頻率,若原始音頻的采樣頻率為fs,則f1和f2在初始化時,只需在[0,fs/2]中隨機初始化即可;
w[n]為窗函數,一般取Hamming窗,即w[n]=0.54-0.46cos(2πn/L);
sinc函數定義為sinc(x)=sin(x)/x。
7.根據權利要求6所述的方法,其中,所述多重處理包括:
池化處理、歸一化處理以及激活函數Relu處理。
8.一種新型網絡結構,包括:
Sinc層,第一DNN層和與第一DNN層連接的記憶塊,第二DNN層和與第二DNN層連接的記憶塊,以及輸出層,其中,所述第二DNN層的數量和所述記憶塊的數量為大于等于1的自然數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011630785.2/1.html,轉載請聲明來源鉆瓜專利網。





