[發明專利]病理語音的識別方法、裝置、設備及存儲介質在審
| 申請號: | 202111139827.7 | 申請日: | 2021-09-28 |
| 公開(公告)號: | CN113870903A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 劉源;王健宗;彭俊清 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/66 | 分類號: | G10L25/66;G10L25/24;G10L25/27 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 病理 語音 識別 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能技術領域,應用于智慧醫療領域中,提供一種病理語音的識別方法、裝置、設備及存儲介質,用于提高對病理語音識別的準確率。病理語音的識別方法包括:對語音數據依次進行數據處理得到已分割語音信號;對已分割語音信號依次進行小波變換的多頻帶分解和倒譜分析得到倒譜數據;對倒譜數據分別進行梅爾頻率倒譜系數轉換和時頻分階數提取,得到梅爾頻率倒譜系數和時頻分階梅爾頻率倒譜系數;根據梅爾頻率倒譜系數和時頻分階梅爾頻率倒譜系數獲取目標語音特征向量;通過預置的多層感知器,對目標語音特征向量進行語音類別概率計算和概率判別,得到分類結果。此外,本發明還涉及區塊鏈技術,語音數據和分類結果可存儲于區塊鏈中。
技術領域
本發明涉及智能決策領域,尤其涉及一種病理語音的識別方法、裝置、設備及存儲介質。
背景技術
隨著人工智能的興起,用于病理語音檢測的醫療平臺或醫療系統可以支持疾病輔助診斷、健康管理和遠程會診等功能。病理語音通常指的是由于發聲器官發生病變而引起的異常發音。目前,對于病理語音的檢測方法一般都是對病理語音檢測進行聲學參數提取,得到聲學參數,通過聲學參數進行識別,然而,對病理語音檢測的魯棒性較差,導致了對病理語音識別的準確率較低。
發明內容
本發明提供一種病理語音的識別方法、裝置、設備及存儲介質,用于提高對病理語音識別的準確率。
本發明第一方面提供了一種病理語音的識別方法,包括:
獲取語音數據,對所述語音數據依次進行預處理、信號歸一化和信號分割,得到已分割語音信號;
對所述已分割語音信號依次進行小波變換的多頻帶分解和倒譜分析,得到倒譜數據;
對所述倒譜數據分別進行梅爾頻率倒譜系數轉換和時頻分階數提取,得到梅爾頻率倒譜系數和時頻分階梅爾頻率倒譜系數;
根據所述梅爾頻率倒譜系數和所述時頻分階梅爾頻率倒譜系數構造預設維度的特征向量,得到初始語音特征向量,并對所述初始語音特征向量進行基于特征值時間序列的特征選擇,得到目標語音特征向量;
通過預置的多層感知器,對所述目標語音特征向量進行語音類別概率計算和概率判別,得到分類結果,所述多層感知器包括三個卷積層以及每個卷積層連接的最大池化層、兩個完整連接層和一個輸出層,所述分類結果包括正常語音和病理語音。
可選的,在本發明第一方面的第一種實現方式中,所述通過預置的多層感知器,對所述目標語音特征向量進行語音類別概率計算和概率判別,得到分類結果,所述多層感知器包括三個卷積層以及每個卷積層連接的最大池化層、兩個完整連接層和一個輸出層,所述分類結果包括正常語音和病理語音,包括:
通過預置的多層感知器的三個卷積層,計算所述目標語音特征向量中每個特征圖的隱藏單元值,得到語音特征向量的隱藏單元值;
通過所述多層感知器的最大池化層,對所述語音特征向量的隱藏單元值進行降維處理,得到初始語音特征;
通過所述多層感知器的兩個完整連接層,對所述初始語音特征進行擬合,得到待分類特征向量;
通過所述多層感知器的一個輸出層,基于所述待分類特征向量進行語音類別概率計算并輸出分類結果,所述分類結果包括正常語音和病理語音。
可選的,在本發明第一方面的第二種實現方式中,所述對所述已分割語音信號依次進行小波變換的多頻帶分解和倒譜分析,得到倒譜數據,包括:
通過預置的離散小波變換算法,對所述已分割語音信號中的每段語音信號進行多級子帶分解,得到分解后的語音信號;
通過預置的倒譜算法,對所述分解后的語音信號依序進行傅立葉變換和傅里葉逆變換,得到倒譜數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111139827.7/2.html,轉載請聲明來源鉆瓜專利網。





