[發明專利]合成語音識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202210647355.4 | 申請日: | 2022-06-08 |
| 公開(公告)號: | CN114974205A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 魏林強 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L15/00;G10L15/02;G10L25/30;G10L25/51 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 合成 語音 識別 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及智能決策領域,揭露一種合成語音識別方法,包括:獲取業務場景中的原始語音數據,并采集所述原始語音數據中的語音信號;對所述語音信號進行預處理,得到預處理信號,利用預設的線性預測算法提取所述預處理信號中的殘差語音信號;對所述殘差語音信號進行傅里葉變換,得到所述殘差語音信號對應的頻域信號,對所述頻域信號進行特征提取,得到頻域信號特征;利用訓練好的輕型卷積神經網絡對所述頻域信號特征進行合成判別,得到所述原始語音數據的合成語音識別結果。本發明可以提高合成語音識別的準確性。
技術領域
本發明涉及智能決策領域,尤其涉及一種合成語音識別方法、裝置、電子設備及存儲介質。
背景技術
近年來,隨著人工智能技術的快速發展,其功能已經在多種認證場景中得到了廣泛的應用,給人們的生活帶來了便利,例如在電話銷售行業中使用AI智能貸款,極大地提高的保險行業的貸款效率,AI智能貸款是指使用人工智能做出貸款和信貸決策,銀行可以減少人工操作并提高透明度,借助AI智能貸款解決方案提供的數據支持的洞察力,銀行可以減少損失并做出更有利可圖的決策,但是如果用戶的個人信息被惡意獲取且其聲紋信息也會被惡意合成,不法分子會利用合成語音進行貸款操作,不僅會給保險公司帶來較大的經濟損失,還會對客戶本人的信息安全造成極大的危害,因此,亟待一種方案以準確的識別合成語音。
發明內容
為了解決上述技術問題,本發明提供了一種合成語音識別方法,可以提高合成語音識別的準確性。
第一方面,本發明提供了一種合成語音識別方法,包括:
獲取業務場景中的原始語音數據,并采集所述原始語音數據中的語音信號;
對所述語音信號進行預處理,得到預處理信號,利用預設的線性預測算法提取所述預處理信號中的殘差語音信號;
對所述殘差語音信號進行傅里葉變換,得到所述殘差語音信號對應的頻域信號,對所述頻域信號進行特征提取,得到頻域信號特征;
利用訓練好的輕型卷積神經網絡對所述頻域信號特征進行合成判別,得到所述原始語音數據的合成語音識別結果。
在第一方面的一種可能實現方式中,所述對所述語音信號進行預處理,得到預處理信號,包括:
對所述語音信號進行預加重處理,得到預加重語音信號;
對所述預加重語音信號進行分幀處理,得到分幀語音信號;
對所述分幀語音信號進行加窗處理,得到預處理信號。
在第一方面的一種可能實現方式中,所述對所述預加重語音信號進行分幀處理,得到分幀語音信號,包括:
提取所述預加重語音信號中的時域語音信號,對所述時域語音信號進行頻譜分析,得到語音頻譜信號;
對所述語音頻譜信號進行增強處理,得到增強語音信號;
對所述增強語音信號進行分幀處理,得到分幀語音信號。
在第一方面的一種可能實現方式中,所述對所述分幀語音信號進行加窗處理,得到預處理信號,包括:
對所述分幀語音信號進行疊加處理,得到疊加語音信號;
識別所述疊加語音信號的類別,通過所述疊加語音信號的類別獲取對應的窗函數;
利用所述窗函數對所述疊加語音信號進行加窗,得到預處理信號。
在第一方面的一種可能實現方式中,所述對所述殘差語音信號進行傅里葉變換,得到所述殘差語音信號對應的頻域信號,包括:
對所述殘差語音信號進行降噪處理,得到降噪語音信號;
對所述降噪語音信號進行傅里葉變換,得到所述殘差語音信號對應的頻域信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210647355.4/2.html,轉載請聲明來源鉆瓜專利網。





