[發(fā)明專利]合成語音識別方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210647355.4 | 申請日: | 2022-06-08 |
| 公開(公告)號: | CN114974205A | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 魏林強(qiáng) | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L15/00;G10L15/02;G10L25/30;G10L25/51 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 合成 語音 識別 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種合成語音識別方法,其特征在于,所述方法包括:
獲取業(yè)務(wù)場景中的原始語音數(shù)據(jù),并采集所述原始語音數(shù)據(jù)中的語音信號;
對所述語音信號進(jìn)行預(yù)處理,得到預(yù)處理信號,利用預(yù)設(shè)的線性預(yù)測算法提取所述預(yù)處理信號中的殘差語音信號;
對所述殘差語音信號進(jìn)行傅里葉變換,得到所述殘差語音信號對應(yīng)的頻域信號,對所述頻域信號進(jìn)行特征提取,得到頻域信號特征;
利用訓(xùn)練好的輕型卷積神經(jīng)網(wǎng)絡(luò)對所述頻域信號特征進(jìn)行合成判別,得到所述原始語音數(shù)據(jù)的合成語音識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述語音信號進(jìn)行預(yù)處理,得到預(yù)處理信號,包括:
對所述語音信號進(jìn)行預(yù)加重處理,得到預(yù)加重語音信號;
對所述預(yù)加重語音信號進(jìn)行分幀處理,得到分幀語音信號;
對所述分幀語音信號進(jìn)行加窗處理,得到預(yù)處理信號。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述預(yù)加重語音信號進(jìn)行分幀處理,得到分幀語音信號,包括:
提取所述預(yù)加重語音信號中的時(shí)域語音信號,對所述時(shí)域語音信號進(jìn)行頻譜分析,得到語音頻譜信號;
對所述語音頻譜信號進(jìn)行增強(qiáng)處理,得到增強(qiáng)語音信號;
對所述增強(qiáng)語音信號進(jìn)行分幀處理,得到分幀語音信號。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述分幀語音信號進(jìn)行加窗處理,得到預(yù)處理信號,包括:
對所述分幀語音信號進(jìn)行疊加處理,得到疊加語音信號;
識別所述疊加語音信號的類別,通過所述疊加語音信號的類別獲取對應(yīng)的窗函數(shù);
利用所述窗函數(shù)對所述疊加語音信號進(jìn)行加窗,得到預(yù)處理信號。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述殘差語音信號進(jìn)行傅里葉變換,得到所述殘差語音信號對應(yīng)的頻域信號,包括:
對所述殘差語音信號進(jìn)行降噪處理,得到降噪語音信號;
對所述降噪語音信號進(jìn)行傅里葉變換,得到所述殘差語音信號對應(yīng)的頻域信號。
6.根據(jù)權(quán)利要求1至5中任意一項(xiàng)所述的方法,其特征在于,所述對所述頻域信號進(jìn)行特征提取,得到頻域信號特征,包括:
對所述頻域信號進(jìn)行向量轉(zhuǎn)化,得到頻域向量;
對所述頻域向量進(jìn)行降維處理,得到降維向量;
對所述降維向量進(jìn)行特征提取,得到特征向量;
通過輸出函數(shù)對所述特征向量進(jìn)行連接處理,得到頻域信號特征。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用訓(xùn)練好的輕型卷積神經(jīng)網(wǎng)絡(luò)對所述頻域信號特征進(jìn)行合成判別,得到所述原始語音數(shù)據(jù)的合成語音識別結(jié)果,包括:
通過所述輕型卷積神經(jīng)網(wǎng)絡(luò)中的卷積層對所述頻域信號特征進(jìn)行特征篩選,得到卷積信號特征;
通過所述輕型卷積神經(jīng)網(wǎng)絡(luò)中的池化層對所述卷積信號特征進(jìn)行池化處理,得到池化信號特征;
通過所述輕型卷積神經(jīng)網(wǎng)絡(luò)中的全連接層對所述池化信號特征進(jìn)行合成判別,得到判別類別;
根據(jù)所述判別類別得到所述原始語音數(shù)據(jù)的合成語音識別結(jié)果。
8.一種合成語音識別裝置,其特征在于,所述裝置包括:
信號采集模塊,用于獲取業(yè)務(wù)場景中的原始語音數(shù)據(jù),并采集所述原始語音數(shù)據(jù)中的語音信號;
信號預(yù)處理模塊,用于對所述語音信號進(jìn)行預(yù)處理,得到預(yù)處理信號,利用預(yù)設(shè)的線性預(yù)測算法提取所述預(yù)處理信號中的殘差語音信號;
信號特征提取模塊,利用對所述殘差語音信號進(jìn)行傅里葉變換,得到所述殘差語音信號對應(yīng)的頻域信號,對所述頻域信號進(jìn)行特征提取,得到頻域信號特征;
語音識別判斷模塊,用于利用訓(xùn)練好的輕型卷積神經(jīng)網(wǎng)絡(luò)對所述頻域信號特征進(jìn)行合成判別,得到所述原始語音數(shù)據(jù)的合成語音識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210647355.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





