[發(fā)明專利]語種識別方法、裝置、電子設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202210142417.6 | 申請日: | 2022-02-16 |
| 公開(公告)號: | CN114648976A | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設(shè)計)人: | 司玉景;張欽;李全忠;何國濤;蒲瑤 | 申請(專利權(quán))人: | 普強時代(珠海橫琴)信息技術(shù)有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 張志輝 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語種 識別 方法 裝置 電子設(shè)備 介質(zhì) | ||
1.一種語種識別方法,其特征在于,包括:
獲取多語種音頻數(shù)據(jù),根據(jù)所述音頻數(shù)據(jù)確定聲學(xué)特征;
創(chuàng)建深度神經(jīng)網(wǎng)絡(luò),以所述聲學(xué)特征作為輸入,通過訓(xùn)練得到已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò);
根據(jù)語種識別請求,獲取音頻序列,通過已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)對所述音頻序列進行推理,確定所述音頻序列中的語種概率;
根據(jù)所述語種概率,確定語種置信度,進而確定所述音頻序列的語種。
2.根據(jù)權(quán)利要求1所述的語種識別方法,其特征在于,所述獲取多語種音頻數(shù)據(jù),根據(jù)所述音頻數(shù)據(jù)確定聲學(xué)特征,包括:
采集不同語種的所述音頻數(shù)據(jù),對所述音頻數(shù)據(jù)執(zhí)行預(yù)處理、加窗、FTT變換及梅爾濾波器處理,得到所述聲學(xué)特征。
3.根據(jù)權(quán)利要求2所述的語種識別方法,其特征在于,所述創(chuàng)建深度神經(jīng)網(wǎng)絡(luò),以所述聲學(xué)特征作為輸入,通過訓(xùn)練得到已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò),包括:
以所述聲學(xué)特征作為輸入,以已標(biāo)注的語種標(biāo)簽作為訓(xùn)練目標(biāo),對所述深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,所述深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)采用CTC損失函數(shù),通過所述CTC損失函數(shù)對深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練得到的所述深度神經(jīng)網(wǎng)絡(luò)用來確定所述聲學(xué)特征的序列概率。
4.根據(jù)權(quán)利要求3所述的語種識別方法,其特征在于,所述方法還包括:
已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)包括建模單元集,所述建模單元集合用于表征多個聲學(xué)感知建模單元的集合,所述語種標(biāo)簽對應(yīng)所述建模單元集,所述聲學(xué)感知建模單元用于表征語音發(fā)聲的語種、拼音、音節(jié)、音素中的至少一種。
5.根據(jù)權(quán)利要求4所述的語種識別方法,其特征在于,所述根據(jù)語種識別請求,獲取音頻序列,通過已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)對所述音頻序列進行推理,確定所述音頻序列中的語種概率,包括:
通過已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)模型對所述音頻序列進行推理,得到后驗概率,對所述后驗概率進行基于前綴樹的束搜索算法的解碼處理,確定每個語種聲學(xué)感知建模單元的數(shù)量。
6.根據(jù)權(quán)利要求5所述的語種識別方法,其特征在于,所述方法包括:
以所述感知建模單元數(shù)量的最大值作為所述音頻序列的分類識別結(jié)果。
7.一種語種識別裝置,其特征在于,包括:
聲學(xué)特征模塊,用于獲取多語種音頻數(shù)據(jù),根據(jù)音頻數(shù)據(jù)提取對應(yīng)的聲學(xué)特征;
訓(xùn)練模塊,用于創(chuàng)建深度神經(jīng)網(wǎng)絡(luò),以所述聲學(xué)特征作為輸入,通過訓(xùn)練得到已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò);
推理模塊,用于根據(jù)語種識別請求,獲取音頻序列,通過已訓(xùn)練的所述深度神經(jīng)網(wǎng)絡(luò)對所述音頻序列進行推理,確定所述音頻序列中的語種概率;
分類模塊,用于根據(jù)語種概率,計算語種置信度,最后確定音頻序列的語種。
8.一種電子設(shè)備,其特征在于,包括處理器以及存儲器;
所述存儲器用于存儲程序;
所述處理器執(zhí)行所述程序?qū)崿F(xiàn)如權(quán)利要求1-6中任一項所述的語種識別方法。
9.一種計算機可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有程序,所述程序被處理器執(zhí)行實現(xiàn)如權(quán)利要求1-6中任一項所述的語種識別方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于普強時代(珠海橫琴)信息技術(shù)有限公司,未經(jīng)普強時代(珠海橫琴)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210142417.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





