[發明專利]一種基于電話信道的語音識別聲學模型構建方法及系統在審
| 申請號: | 202211243374.7 | 申請日: | 2022-10-11 |
| 公開(公告)號: | CN115602158A | 公開(公告)日: | 2023-01-13 |
| 發明(設計)人: | 龔梁;胡華;周逸聰;孫濤;程俊杰 | 申請(專利權)人: | 武漢烽火普天信息技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16 |
| 代理公司: | 武漢藍寶石專利代理事務所(特殊普通合伙) 42242 | 代理人: | 范三霞 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 電話 信道 語音 識別 聲學 模型 構建 方法 系統 | ||
1.一種基于電話信道的語音識別聲學模型構建方法,其特征在于,包括:
對錄音語音數據進行重采樣,獲取采樣率與電話信道采樣率相同的重采樣錄制語音數據集,所述錄音語音數據為通過語音采集終端采用錄音的方式錄制的采樣率高于電話信道采樣率的語音數據;
在語音文本標注不改變的基礎上,分別對所述重采樣錄音數據和電話信道語音數據進行數據增強處理,生成第一擴展語音數據集和第二擴展語音數據集;
將所述重采樣錄制語音數據集、電話信道語音數據集、第一擴展語音數據集和第二擴展語音數據集混合,生成混合訓練數據集;
基于所述混合訓練數據集,訓練深度神經網絡模型,構建電話信號語音識別聲學模型。
2.根據權利要求1所述的構建方法,其特征在于,所述對錄音語音數據進行重采樣,獲取采樣率與電話信道采樣率相同的重采樣錄制語音數據集,包括:
錄制語音采樣率為Fs,電話信道采用率為Fc,Fs>Fc,重采樣因子P/Q為電話信道采樣率Fc和錄制語音采樣率Fs之間的比例,即P/Q=Fc/Fs,且P/Q為大于0小于1的分數;
當P=1且Q為整數時,重采樣過程為:
對錄制語音數據進行下采樣,對錄制語音數據每隔(Q-1)個點抽取一個數據點;
當P1且Q為整數時,通過重采樣因子P/Q對錄制語音數據進行重采樣,對于采樣率為Fs、長度為M個采樣點的錄制語音數據x[n],重采樣過程為:
(a)上采樣:在原錄制語音數據相鄰兩點內插入(P-1)個零點,即創建有P(M-1)+1個采樣點的信號xu[n],當n=1,2,…,M時,xu[P(n-1)+1]=x[n];否則,xu[n]=0;
(b)插值濾波:xu[n]和一個低通插值濾波器h[n]作卷積:xi[n]=xu[n]h[n]。
(c)下采樣:對插值濾波后的錄制語音數據,每隔(Q-1)個點抽取一個數據點,即創建有(P(M-1)+1)/Q+1個點的信號xd[n],下采樣信號y[n]=xd[n],對下采樣后的語音數據進行濾波處理,最終重采樣為采用率為Fc的錄制語音數據。
3.根據權利要求1所述的構建方法,其特征在于,所述通過語音采集終端采用錄音方式錄制的語音數據的錄音文本,其文本內容專業領域覆蓋所需識別電話語音信號的專業領域,且專業詞匯讀音與電話信道中電話語音數據專業詞匯讀音具有一致性;
對于電話信道語音數據和重采樣語音數據的文本標注為采用相同的分詞方式和分詞詞典進行標注。
4.根據權利要求1所述的構建方法,其特征在于,所述在語音文本標注不改變的基礎上,分別對所述重采樣錄音數據和電話信道語音數據進行數據增強處理,生成第一擴展語音數據集和第二擴展語音數據集,包括:
分別通過語音速度擾動、音量擾動、頻率擾動、語音加噪和語音加混響五種語音數據增強方式對所述重采樣錄音數據和電話信道語音數據進行數據增強處理,生成第一擴展語音數據集和第二擴展語音數據集;
其中,所述第一擴展語音數據集的總時長與所述重采樣錄音數據的總時長的比例近似為1,所述第二擴展語音數據集的總時長和所述電話信道語音數據的總時長的比例近似為1。
5.根據權利要求4所述的構建方法,其特征在于,所述分別通過語音速度擾動、音量擾動、頻率擾動、語音加噪和語音加混響五種語音數據增強方式對所述重采樣錄音數據和電話信道語音數據進行數據增強處理,生成第一擴展語音數據集和第二擴展語音數據集,包括:
將所述重采樣錄音數據和電話信道語音數據分別隨機平均劃分為七份,選取其中五份將每一份語音數據分別采用五種語音數據增強方式中的一種進行語音數據增強處理,選取剩余的兩份中的一份語音數據先進行速度擾動語音數據增強處理后進行音量擾動數據增強處理,將剩余的最后一份先進行語音加噪數據增強處理后進行語音加混響數據增強處理,最后將進行語音數據增強數據處理的七份語音數據重新合并,分別生成第一擴展語音數據集和第二擴展語音數據集。
6.根據權利要求5所述的構建方法,其特征在于,所述語音加躁數據增強處理包括:
選取不同的噪聲數據;
利用信噪比分布函數,向需要進行加噪的語音數據疊加所述噪聲數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢烽火普天信息技術有限公司,未經武漢烽火普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211243374.7/1.html,轉載請聲明來源鉆瓜專利網。





