[發(fā)明專利]語義預測網(wǎng)絡(luò)的訓練方法、裝置、設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011104612.7 | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112233664B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 陳立;鄒賽賽 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/02;G10L15/22;G10L15/26 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語義 預測 網(wǎng)絡(luò) 訓練 方法 裝置 設(shè)備 以及 存儲 介質(zhì) | ||
1.一種語義預測網(wǎng)絡(luò)的訓練方法,其中,初始的語義預測網(wǎng)絡(luò)包括:編碼器網(wǎng)絡(luò)和至少一個解碼器網(wǎng)絡(luò),所述編碼器網(wǎng)絡(luò)包括卷積層和長短期記憶網(wǎng)絡(luò)層;所述至少一個解碼器網(wǎng)絡(luò)的每一個解碼器網(wǎng)絡(luò)對應一個域,所述域與場景指令中的槽位相對應;所述方法包括:
獲取目標語音樣本的第一語音特征;其中,所述目標語音樣本為合成語音樣本或真實語音樣本,所述合成語音樣本附有樣本音節(jié)標簽和包括所述域的值的語義標簽,所述真實語義樣本附有樣本音節(jié)標簽,所述樣本音節(jié)標簽用于標記合成語音樣本的文本表達和句式的關(guān)鍵詞中的各個音;
將所述第一語音特征輸入所述卷積層,將所述卷積層的輸出特征輸入至所述長短期記憶網(wǎng)絡(luò)層,將所述長短期記憶網(wǎng)絡(luò)層輸出的第一中間特征輸入所述至少一個解碼器網(wǎng)絡(luò)中的每一個解碼器網(wǎng)絡(luò),將與所述第一語音特征對應的語義標簽作為所述至少一個解碼器網(wǎng)絡(luò)的輸出,將所述第一中間特征作為音節(jié)分類網(wǎng)絡(luò)的輸入,將與所述第一語音特征對應的樣本音節(jié)標簽作為音節(jié)分類網(wǎng)絡(luò)的輸出,聯(lián)合訓練所述初始的語義預測網(wǎng)絡(luò)和所述音節(jié)分類網(wǎng)絡(luò),得到已訓練的語義預測網(wǎng)絡(luò),所述音節(jié)分類網(wǎng)絡(luò)包括全連接層和softmax層。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述初始的語義預測網(wǎng)絡(luò)基于以下步驟確定:
將所述合成語音樣本作為原始的語義預測網(wǎng)絡(luò)的輸入,將與所述合成語音樣本對應的語義標簽作為所述原始的語義預測網(wǎng)絡(luò)的輸出,訓練所述原始的語義預測網(wǎng)絡(luò),得到所述初始的語義預測網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述初始的語義預測網(wǎng)絡(luò)還包括:多通道語音增強網(wǎng)絡(luò);
所述獲取目標語音樣本的第一語音特征包括:將所述目標語音樣本輸入多通道語音增強網(wǎng)絡(luò),得到多通道語音增強網(wǎng)絡(luò)輸出的目標語音樣本的第一語音特征。
4.根據(jù)權(quán)利要求1或2所述的方法,其中,所述編碼器網(wǎng)絡(luò)為預訓練的編碼器網(wǎng)絡(luò);
所述預訓練的編碼器網(wǎng)絡(luò)基于以下步驟預先訓練得到:
獲取真實語音樣本的第二語音特征;
對所述第二語音特征執(zhí)行以下訓練步驟:將所述第二語音特征輸入初始的編碼器網(wǎng)絡(luò),得到所述初始的編碼器網(wǎng)絡(luò)輸出的第二中間特征;將所述第二中間特征輸入至音節(jié)分類網(wǎng)絡(luò),得到所述音節(jié)分類網(wǎng)絡(luò)輸出的預測音節(jié)標簽;響應于所述預測音節(jié)標簽與所述樣本音節(jié)標簽之間的差值不符合預設(shè)的截止條件,調(diào)整所述初始的編碼器網(wǎng)絡(luò)的參數(shù),并跳轉(zhuǎn)至執(zhí)行所述訓練步驟直至所述差值滿足所述預設(shè)的截止條件,得到所述預訓練的編碼器網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述每一個解碼器網(wǎng)絡(luò)包括:依次串聯(lián)的注意力機制層、全連接層和softmax層。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述合成語音樣本基于以下步驟確定:
獲取針對目標場景的文本表達和句式;
對所述針對目標場景的文本表達和句式進行語音合成,得到針對目標場景的語音信號;
基于所述針對目標場景的文本表達和句式的關(guān)鍵詞,確定所述針對目標場景的語音信號的樣本音節(jié)標簽和包括域的值的語義標簽;
將附加所述針對目標場景的語音信號的樣本音節(jié)標簽和包括域的值的語義標簽的所述針對目標場景的語音信號,作為所述合成語音樣本。
7.一種語義識別方法,所述方法包括:
獲取待識別語音信號;
將所述待識別語音信號輸入采用如權(quán)利要求1-6任意一項所述的方法訓練的已訓練的語義預測網(wǎng)絡(luò),得到所述待識別語音信號的語義標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011104612.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復網(wǎng)絡(luò)地址自動恢復的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





