[發(fā)明專利]聲學(xué)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010599146.8 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111785256A | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計)人: | 李敏;丁科;萬廣魯 | 申請(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/26 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聲學(xué) 模型 訓(xùn)練 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本申請?zhí)峁┝艘环N聲學(xué)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括:獲取訓(xùn)練語音數(shù)據(jù),并提取訓(xùn)練語音數(shù)據(jù)的聲學(xué)特征向量;將聲學(xué)特征向量中的第一聲學(xué)特征向量輸入發(fā)音狀態(tài)模型中,得到第一聲學(xué)特征向量對應(yīng)的發(fā)音狀態(tài);根據(jù)發(fā)音狀態(tài)與發(fā)音音素的對應(yīng)關(guān)系,將第一聲學(xué)特征向量對應(yīng)的發(fā)音狀態(tài)轉(zhuǎn)換為第一聲學(xué)特征向量對應(yīng)的發(fā)音音素;基于聲學(xué)特征向量中的第二聲學(xué)特征向量和第一聲學(xué)特征向量對應(yīng)的發(fā)音音素,對預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,并將訓(xùn)練后的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型作為聲學(xué)模型。可見,通過本申請實施例提供的技術(shù)方案,可以降低聲學(xué)模型的計算量,提高聲學(xué)模型的計算速率。
技術(shù)領(lǐng)域
本申請涉及語音識別技術(shù)領(lǐng)域,特別是涉及聲學(xué)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,語音識別技術(shù)取得了巨大的進步,并開始進入家電、通信、汽車、醫(yī)療等各個領(lǐng)域。語音識別是把人的語音通過機器進行信號處理和識別,轉(zhuǎn)變?yōu)橄鄳?yīng)文本,再通過語義分析和理解,最終讓機器像人一樣聽懂我們的聲音。
語音識別系統(tǒng)主要包括聲學(xué)模型、語言模型和解碼器三大模塊。具體的,將語音數(shù)據(jù)輸入語音識別系統(tǒng)后,一條語音數(shù)據(jù)被分成若干幀,每幀用一個特征向量來表示,然后將特征向量輸入到聲學(xué)模型中,得到每幀對應(yīng)的發(fā)音概率分布,解碼器根據(jù)每幀對應(yīng)的發(fā)音概率分布和語言模型來得到最終的語音識別結(jié)果。
通常情況下,一條語音數(shù)據(jù)包括的幀數(shù)較多,得到每幀對應(yīng)的發(fā)音概率分布需要耗費大量的計算資源,因此,聲學(xué)模型得到語音數(shù)據(jù)中所有幀對應(yīng)的發(fā)音概率分布需要的時間較長,速度較低。并且,聲學(xué)模型是影響語音識別系統(tǒng)的識別速度的重要部分,從而導(dǎo)致語音識別系統(tǒng)的識別速率較低。
發(fā)明內(nèi)容
為解決背景技術(shù)中記載的因聲學(xué)模型得到語音數(shù)據(jù)中所有幀對應(yīng)的發(fā)音概率分布需要的時間較長,而導(dǎo)致語音識別系統(tǒng)的識別速率較低的技術(shù)問題,本申請?zhí)峁┝寺晫W(xué)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。
第一方面,本申請實施例提供了一種聲學(xué)模型訓(xùn)練方法,所述方法包括:
獲取訓(xùn)練語音數(shù)據(jù),并提取所述訓(xùn)練語音數(shù)據(jù)的聲學(xué)特征向量,其中,所述訓(xùn)練語音數(shù)據(jù)具有對應(yīng)的標注文本數(shù)據(jù),所述標注文本數(shù)據(jù)具有對應(yīng)的發(fā)音音素;
將所述聲學(xué)特征向量中的第一聲學(xué)特征向量輸入發(fā)音狀態(tài)模型中,得到所述第一聲學(xué)特征向量對應(yīng)的發(fā)音狀態(tài);
根據(jù)發(fā)音狀態(tài)與發(fā)音音素的對應(yīng)關(guān)系,將所述第一聲學(xué)特征向量對應(yīng)的發(fā)音狀態(tài)轉(zhuǎn)換為所述第一聲學(xué)特征向量對應(yīng)的發(fā)音音素,其中,每個所述發(fā)音音素包括多個發(fā)音狀態(tài);
基于所述聲學(xué)特征向量中的第二聲學(xué)特征向量和所述第一聲學(xué)特征向量對應(yīng)的發(fā)音音素,對預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,并將訓(xùn)練后的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型作為聲學(xué)模型,其中,所述第二聲學(xué)特征向量是所述聲學(xué)特征向量中除所述第一聲學(xué)特征向量之外的聲學(xué)特征向量;
其中,在訓(xùn)練所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的過程中,對所述第二聲學(xué)特征向量進行下采樣處理。
可選的,所述基于所述聲學(xué)特征向量中的第二聲學(xué)特征向量和所述第一聲學(xué)特征向量對應(yīng)的發(fā)音音素,對預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,包括:
按照預(yù)先設(shè)定的目標下采樣率對所述第二聲學(xué)特征向量進行下采樣,得到目標聲學(xué)特征向量;
對于每一目標聲學(xué)特征向量,將該目標聲學(xué)特征向量與該目標聲學(xué)特征向量上下文相關(guān)的預(yù)設(shè)數(shù)量個第二聲學(xué)特征向量輸入預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型,對所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,直至使得從所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型輸出的發(fā)音音素概率分布為目標發(fā)音音素概率分布時,得到訓(xùn)練后的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型;
其中,目標發(fā)音音素概率分布是基于該目標聲學(xué)特征向量對應(yīng)的發(fā)音音素,以及根據(jù)所述目標下采樣率所確定與該目標聲學(xué)特征向量相鄰的第二聲學(xué)特征向量對應(yīng)的發(fā)音音素確定的;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010599146.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于語音識別的聲學(xué)模型訓(xùn)練方法及裝置
- 具有集成聲學(xué)發(fā)生器的聲學(xué)發(fā)射傳感器
- 聲學(xué)發(fā)射傳感器裝置
- 一種基于空間折疊聲學(xué)超材料的單傳感器聲學(xué)相機
- 聲學(xué)環(huán)境中的聲學(xué)信號的基于上下文的消除和放大
- 聲學(xué)結(jié)構(gòu)和聲學(xué)系統(tǒng)
- 具有外放和私密操作模式的可穿戴個人聲學(xué)設(shè)備
- 聲換能器系統(tǒng)
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計算機可讀存儲介質(zhì)
- 一種基于聲學(xué)暗室的聲學(xué)相位中心校準方法及系統(tǒng)





