[發明專利]語音識別方法及裝置有效
| 申請號: | 201710198565.9 | 申請日: | 2017-03-29 |
| 公開(公告)號: | CN106991999B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 萬韶華 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L25/30 |
| 代理公司: | 北京尚倫律師事務所 11477 | 代理人: | 代治國 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 | ||
1.一種語音識別方法,其特征在于,包括:
獲取語音識別模型中待輸入深度神經網絡DNN第i層網絡的M個語音數據,每個所述語音數據包括語音的持續時間、語音頻率和語音強度;所述i為大于或等于1的整數;
對所述M個語音數據包括的M個語音強度進行正則化處理,獲取M個正則語音數據,每個所述正則語音數據包括語音的所述持續時間、所述語音頻率和正則語音強度,所述M為大于或等于1的整數;
根據所述M個正則語音數據,獲取輸入所述DNN第i層網絡的M個輸入語音數據;
所述根據所述M個正則語音數據,獲取輸入所述DNN第i層網絡的M個輸入語音數據包括:
對所述M個正則語音數據包括的M個正則語音強度進行逆正則處理,獲取M個逆正則語音數據,每個所述逆正則語音數據包括語音的所述持續時間,所述語音頻率和逆正則語音強度;
將所述M個逆正則語音數據作為輸入所述DNN第i層網絡的所述M個輸入語音數據。
2.根據權利要求1所述的方法,其特征在于,所述根據所述M個正則語音數據,獲取輸入所述DNN第i層網絡的M個輸入語音數據包括:
將所述M個正則語音數據作為輸入所述DNN第i層網絡的所述M個輸入語音數據。
3.根據權利要求1所述的方法,其特征在于,所述對所述M個語音數據包括的M個語音強度進行正則化處理,獲取M個正則語音數據包括:
將所述M個語音數據按照預設規則分成N組語音數據;
對所述N組語音數據中每組語音數據分別進行正則化處理,獲取N組正則語音數據,所述N組正則語音數據共包括M個正則語音數據。
4.根據權利要求1至3任意一項權利要求所述的方法,其特征在于,所述對所述M個語音數據包括的M個語音強度進行正則化處理,獲取M個正則語音數據包括:
獲取所述M個語音強度的均值E[X(i)]和所述M個語音強度的方差Var[X(i)];
根據第一公式,對所述M個語音強度x(i)進行正則化處理,獲取M個正則語音強度x^(i);所述第一公式為:
根據所述M個正則語音強度x^(i),獲取所述M個正則語音數據。
5.根據權利要求1所述的方法,其特征在于,所述對所述M個正則語音數據包括的M個正則語音強度進行逆正則處理,獲取M個逆正則語音數據包括:
根據第二公式對所述M個正則語音強度進行逆正則處理,獲取M個逆正則語音強度y(i);所述第二公式為:y(i)=γ(i)x^(i)+β(i);其中,所述x^(i)為M個正則語音強度,所述γ(i)為所述第i層網絡的逆正則方差參數,所述β(i)為所述第i層網絡的逆正則均值參數;
根據所述M個逆正則語音強度y(i),獲取所述M個逆正則語音數據。
6.根據權利要求1至3任意一項權利要求所述的方法,其特征在于,所述第i層網絡包括第i卷積層,第i池化層和第i激活層;所述方法還包括:
將所述M個輸入語音數據輸入所述第i卷積層,獲取所述第i卷積層輸出的M個卷積語音數據;
將所述M個卷積語音數據輸入所述第i池化層,獲取所述第i池化層輸出的M個池化語音數據;
將所述M個池化語音數據輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網絡的M個語音數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710198565.9/1.html,轉載請聲明來源鉆瓜專利網。





