[發(fā)明專利]語種識別方法、裝置、電子設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202210142417.6 | 申請日: | 2022-02-16 |
| 公開(公告)號: | CN114648976A | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設(shè)計)人: | 司玉景;張欽;李全忠;何國濤;蒲瑤 | 申請(專利權(quán))人: | 普強時代(珠海橫琴)信息技術(shù)有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 廣州嘉權(quán)專利商標事務(wù)所有限公司 44205 | 代理人: | 張志輝 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語種 識別 方法 裝置 電子設(shè)備 介質(zhì) | ||
本發(fā)明提供一種語種識別方法、裝置、電子設(shè)備及介質(zhì),該語種識別方法包括:獲取多語種音頻數(shù)據(jù),根據(jù)音頻數(shù)據(jù)提取對應(yīng)的聲學特征;創(chuàng)建深度神經(jīng)網(wǎng)絡(luò),以聲學特征作為輸入,通過訓(xùn)練得到已訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò);根據(jù)語種識別請求,獲取音頻序列并提取聲學特征,采用已訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)進行推理,確定音頻序列中的語種概率;根據(jù)語種概率,計算語種置信度,最后確定音頻序列的語種。本發(fā)明的技術(shù)方案通過對每個語種的聲學發(fā)音特征進行建模,建模單元顆粒度更小,從而可以進一步提高語種識別的準確率和魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機人工智能技術(shù)領(lǐng)域,尤其涉及一種語種識別方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù)
隨著AI技術(shù)和計算機硬件的不斷發(fā)展,語音識別領(lǐng)域取得了飛速發(fā)展,并且在各個領(lǐng)域均得到了廣泛的應(yīng)用,例如,智能音箱、智能客服助手、智能語音質(zhì)檢等。然而,在實際使用過程中,智能語音助手均需要事先指定需要識別的語言類型才能正常工作。語種識別技術(shù)可以自動識別用戶所使用的語言,在很多語音處理任務(wù)中得到了廣泛的應(yīng)用,例如多語種語音識別、跨語種通信和機器翻譯等領(lǐng)域。
傳統(tǒng)的語種識別技術(shù)大多是采用語音信號處理中的方法,對底層聲學特征進行抽取,例如梅爾頻率倒譜系數(shù)(MFCC)、感知線性預(yù)測系數(shù)(PLP)等特征,然后采用淺層機器學習方法,例如混合高斯模型(GMM)及其改進方法GMM-UBM,對音頻進行語種分類。但這種方式的語種識別的準確率不高。
而基于深度學習的語種識別方法大多是采用不同形式的神經(jīng)網(wǎng)絡(luò)對輸入音頻序列的語種信息進行建模,如圖1所示,但這種語種識別方式無法滿足對于識別率和魯棒率越來越高的要求。
發(fā)明內(nèi)容
本發(fā)明實施例的主要目的在于提出一種語種識別方法、裝置、電子設(shè)備及介質(zhì),提高了語種識別的準確率和魯棒性。
本發(fā)明的一方面提供了一種語種識別方法,包括:
獲取多種音頻數(shù)據(jù),根據(jù)所述音頻數(shù)據(jù)確定聲學特征;
創(chuàng)建深度神經(jīng)網(wǎng)絡(luò),以所述聲學特征作為輸入,通過訓(xùn)練得到已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò);
根據(jù)語種識別請求,獲取音頻序列,通過已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)對所述音頻序列進行推理,確定所述音頻序列中的語種概率;
根據(jù)所述語種概率,確定所述音頻序列的語種。
根據(jù)所述的語種識別方法,其中獲取多語種音頻數(shù)據(jù),根據(jù)音頻數(shù)據(jù)提取對應(yīng)的聲學特征,包括:采集不同語種的所述音頻數(shù)據(jù),對所述音頻數(shù)據(jù)執(zhí)行預(yù)處理、加窗、FTT變換及梅爾濾波器處理,得到所述聲學特征。
根據(jù)所述的語種識別方法,其中創(chuàng)建深度神經(jīng)網(wǎng)絡(luò),以聲學特征作為輸入,通過訓(xùn)練得到已訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),包括:以所述聲學特征作為輸入,以已標注的語種標簽作為訓(xùn)練目標,對所述深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,所述深度神經(jīng)網(wǎng)絡(luò)的目標函數(shù)采用CTC損失函數(shù),通過所述CTC損失函數(shù)對深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練得到的所述深度神經(jīng)網(wǎng)絡(luò)用來確定所述聲學特征的序列概率。
根據(jù)所述的語種識別方法,其中方法還包括:
已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)包括建模單元集,所述建模單元集合用于表征多個聲學感知建模單元的集合,所述語種標簽對應(yīng)所述建模單元集,所述聲學感知建模單元用于表征語音發(fā)聲的語種、拼音、音節(jié)、音素中的至少一種。
根據(jù)所述的語種識別方法,其中根據(jù)語種識別請求,獲取音頻序列并提取聲學特征,采用已訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)進行推理,確定音頻序列中的語種概率,包括:
通過已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)模型對所述音頻序列進行推理,得到后驗概率,對所述后驗概率進行基于前綴樹的束搜索算法的解碼處理,確定每個語種聲學感知建模的單元數(shù)量。
根據(jù)所述的語種識別方法,其中方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于普強時代(珠海橫琴)信息技術(shù)有限公司,未經(jīng)普強時代(珠海橫琴)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210142417.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





