[發(fā)明專利]一種基于電話信道的語音識別聲學(xué)模型構(gòu)建方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211243374.7 | 申請日: | 2022-10-11 |
| 公開(公告)號: | CN115602158A | 公開(公告)日: | 2023-01-13 |
| 發(fā)明(設(shè)計)人: | 龔梁;胡華;周逸聰;孫濤;程俊杰 | 申請(專利權(quán))人: | 武漢烽火普天信息技術(shù)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16 |
| 代理公司: | 武漢藍寶石專利代理事務(wù)所(特殊普通合伙) 42242 | 代理人: | 范三霞 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 電話 信道 語音 識別 聲學(xué) 模型 構(gòu)建 方法 系統(tǒng) | ||
本發(fā)明提供一種基于電話信道的語音識別聲學(xué)模型構(gòu)建方法及系統(tǒng),方法包括:對錄音語音數(shù)據(jù)進行重采樣,獲取采樣率與電話信道采樣率相同的重采樣錄制語音數(shù)據(jù)集;分別對重采樣錄音數(shù)據(jù)和電話信道語音數(shù)據(jù)進行數(shù)據(jù)增強處理,生成對應(yīng)的擴展語音數(shù)據(jù)集;將重采樣錄制語音數(shù)據(jù)集、電話信道語音數(shù)據(jù)集、以及對應(yīng)的擴展語音數(shù)據(jù)集混合,生成混合訓(xùn)練數(shù)據(jù)集;基于混合訓(xùn)練數(shù)據(jù)集,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建電話信號語音識別聲學(xué)模型。本發(fā)明能夠充分利用數(shù)據(jù)采集成本較低的錄制語音數(shù)據(jù),避免人工標(biāo)注大量電話信道語音數(shù)據(jù)需要花費巨額的時間成本和經(jīng)濟成本的問題,既有效地提高電話信道語音識別精度,同時具有較好的魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能語音識別領(lǐng)域,更具體地,涉及一種基于電話信道的語音識別聲學(xué)模型構(gòu)建方法及系統(tǒng)。
背景技術(shù)
隨著社會信息化的發(fā)展,人們對信息獲取的移動性的需求不斷增加,信息交流與查詢變得越來越重要。語音識別,是人工智能技術(shù)的重要組成部分。語音識別的作用是將人類的語音轉(zhuǎn)換為對應(yīng)文本內(nèi)容的一種技術(shù),這項技術(shù)讓機器獲得了類似人類聽覺的能力。進入21世紀(jì),得益于深度學(xué)習(xí)技術(shù)的出現(xiàn),語音識別技術(shù)開始進入大規(guī)模實用化。語音識別技術(shù)的快速發(fā)展使得語音識別的準(zhǔn)確率有了巨大的進步,在多個行業(yè)完成了落地,越來越多的語音技術(shù)產(chǎn)品進入了人們的生活。
電話是人們生活中應(yīng)用最廣泛、最快捷的通信工具,由于電話網(wǎng)絡(luò)的普及性,電話語音識別有著廣闊的前景。電話語音識別系統(tǒng)面臨的問題一方面在于話機拾音設(shè)備及電話線路網(wǎng)絡(luò)的復(fù)雜性所造成的訓(xùn)練集與測試集語音數(shù)據(jù)的失配,由于電話線路有其獨特的信噪比和頻率響應(yīng),因此電話語音會受到瞬時干擾和非線性畸變的影響,另外,電話機本身質(zhì)量及線路和網(wǎng)絡(luò)狀況的不同,一般通過電話網(wǎng)傳輸?shù)恼Z音都有不同程度的變化;另一方面是語音特征的不穩(wěn)定性和說話人的多樣性,因為電話作為廣泛普通的通信終端,用戶群體廣泛,話者口音、發(fā)音方式千變?nèi)f化。這些問題都給電話語音識別帶來了挑戰(zhàn)。
由于自動語音識別系統(tǒng)是由數(shù)據(jù)驅(qū)動的,因此,訓(xùn)練數(shù)據(jù)的規(guī)模和領(lǐng)域覆蓋程度對其識別性能影響很大。電話信道語音,由于訓(xùn)練數(shù)據(jù)少、附加噪聲、發(fā)聲習(xí)慣差異大等,都嚴(yán)重影響了電話信道語音識別準(zhǔn)確率,但是手工標(biāo)注大量的電話語音是昂貴且費時的。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中存在的技術(shù)問題,提供一種基于電話信道的語音識別聲學(xué)模型構(gòu)建方法及系統(tǒng)。
根據(jù)本發(fā)明的第一方面,提供了一種基于電話信道的語音識別聲學(xué)模型構(gòu)建方法,包括:
對錄音語音數(shù)據(jù)進行重采樣,獲取采樣率與電話信道采樣率相同的重采樣錄制語音數(shù)據(jù)集,所述錄音語音數(shù)據(jù)為通過語音采集終端采用錄音的方式錄制的采樣率高于電話信道采樣率的語音數(shù)據(jù);
在語音文本標(biāo)注不改變的基礎(chǔ)上,分別對所述重采樣錄音數(shù)據(jù)和電話信道語音數(shù)據(jù)進行數(shù)據(jù)增強處理,生成第一擴展語音數(shù)據(jù)集和第二擴展語音數(shù)據(jù)集;
將所述重采樣錄制語音數(shù)據(jù)集、電話信道語音數(shù)據(jù)集、第一擴展語音數(shù)據(jù)集和第二擴展語音數(shù)據(jù)集混合,生成混合訓(xùn)練數(shù)據(jù)集;
基于所述混合訓(xùn)練數(shù)據(jù)集,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建電話信號語音識別聲學(xué)模型。
在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以作出如下改進。
可選的,所述對錄音語音數(shù)據(jù)進行重采樣,獲取采樣率與電話信道采樣率相同的重采樣錄制語音數(shù)據(jù)集,包括:
錄制語音采樣率為Fs,電話信道采用率為Fc,F(xiàn)s>Fc,重采樣因子P/Q為電話信道采樣率Fc和錄制語音采樣率Fs之間的比例,即P/Q=Fc/Fs,且P/Q為大于0小于1的分?jǐn)?shù);
當(dāng)P=1且Q為整數(shù)時,重采樣過程為:
對錄制語音數(shù)據(jù)進行下采樣,對錄制語音數(shù)據(jù)每隔(Q-1)個點抽取一個數(shù)據(jù)點;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢烽火普天信息技術(shù)有限公司,未經(jīng)武漢烽火普天信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211243374.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





