[發(fā)明專利]一種基于語義保留的語音喚醒方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210780418.3 | 申請日: | 2022-07-05 |
| 公開(公告)號: | CN114863915A | 公開(公告)日: | 2022-08-05 |
| 發(fā)明(設(shè)計)人: | 李郡;付冠宇;王嘯;尚德龍;周玉梅 | 申請(專利權(quán))人: | 中科南京智能技術(shù)研究院 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/22;G10L25/24;G10L25/30;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 趙興華 |
| 地址: | 211100 江蘇省南京市江寧*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 保留 語音 喚醒 方法 系統(tǒng) | ||
1.一種基于語義保留的語音喚醒方法,其特征在于,包括:
獲取語音樣本數(shù)據(jù),并對所述語音樣本數(shù)據(jù)進行特征提取,確定連續(xù)聲學(xué)特征幀相關(guān)信息;所述連續(xù)聲學(xué)特征幀相關(guān)信息包括:梅爾頻率倒譜系數(shù)、幀移和單幀幀長;
利用關(guān)鍵詞對所述連續(xù)聲學(xué)特征幀進行標記,確定流式幀級別標簽;所述流式幀級別標簽包括:關(guān)鍵詞語義幀標簽和非關(guān)鍵詞語義幀標簽;
根據(jù)連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),確定流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò);
利用流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò)進行語音數(shù)據(jù)的識別,并根據(jù)識別結(jié)果相應(yīng)的進行語音喚醒。
2.根據(jù)權(quán)利要求1所述的一種基于語義保留的語音喚醒方法,其特征在于,所述利用關(guān)鍵詞對所述連續(xù)聲學(xué)特征幀進行標記,確定流式幀級別標簽,具體包括:
對每一語音樣本數(shù)據(jù)的連續(xù)聲學(xué)特征幀標記保留語義的音素級別標簽;保留語義的音素級別標簽包括:關(guān)鍵詞語義段和非關(guān)鍵詞語義段;
將保留語義的音素級別標簽轉(zhuǎn)換為流式幀級別標簽。
3.根據(jù)權(quán)利要求1所述的一種基于語義保留的語音喚醒方法,其特征在于,所述根據(jù)連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),確定流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò),之前還包括:
判斷連續(xù)聲學(xué)特征幀是否滿足設(shè)定幀數(shù);所述設(shè)定幀數(shù)應(yīng)涵蓋語音樣本數(shù)據(jù)中所有關(guān)鍵詞長度;
若不滿足,則在連續(xù)聲學(xué)特征幀的前方進行補零,進而達到設(shè)定幀數(shù);并且將補零相應(yīng)的位置標記為非關(guān)鍵詞語義幀標簽。
4.根據(jù)權(quán)利要求1所述的一種基于語義保留的語音喚醒方法,其特征在于,所述根據(jù)連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),確定流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò),之前還包括:
對連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽進行數(shù)據(jù)增強處理。
5.根據(jù)權(quán)利要求1所述的一種基于語義保留的語音喚醒方法,其特征在于,所述根據(jù)連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),確定流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò),具體包括:
根據(jù)神經(jīng)網(wǎng)絡(luò)的識別結(jié)果進行反向傳播,進而更新神經(jīng)網(wǎng)絡(luò)的參數(shù),完成語音喚醒神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。
6.一種基于語義保留的語音喚醒系統(tǒng),其特征在于,包括:
語音樣本數(shù)據(jù)獲取模塊,用于獲取語音樣本數(shù)據(jù),并對所述語音樣本數(shù)據(jù)進行特征提取,確定連續(xù)聲學(xué)特征幀相關(guān)信息;所述連續(xù)聲學(xué)特征幀相關(guān)信息包括:梅爾頻率倒譜系數(shù)、幀移和單幀幀長;
流式幀級別標簽確定模塊,用于利用關(guān)鍵詞對所述連續(xù)聲學(xué)特征幀進行標記,確定流式幀級別標簽;所述流式幀級別標簽包括:關(guān)鍵詞語義幀標簽和非關(guān)鍵詞語義幀標簽;
流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò)確定模塊,用于根據(jù)連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),確定流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò);
語音喚醒模塊,用于利用流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò)進行語音數(shù)據(jù)的識別,并根據(jù)識別結(jié)果相應(yīng)的進行語音喚醒。
7.根據(jù)權(quán)利要求6所述的一種基于語義保留的語音喚醒系統(tǒng),其特征在于,所述流式幀級別標簽確定模塊具體包括:
音素級別標簽確定單元,用于對每一語音樣本數(shù)據(jù)的連續(xù)聲學(xué)特征幀標記保留語義的音素級別標簽;保留語義的音素級別標簽包括:關(guān)鍵詞語義段和非關(guān)鍵詞語義段;
流式幀級別標簽確定單元,用于將保留語義的音素級別標簽轉(zhuǎn)換為流式幀級別標簽。
8.根據(jù)權(quán)利要求6所述的一種基于語義保留的語音喚醒系統(tǒng),其特征在于,還包括:
判斷模塊,用于判斷連續(xù)聲學(xué)特征幀是否滿足設(shè)定幀數(shù);所述設(shè)定幀數(shù)應(yīng)涵蓋語音樣本數(shù)據(jù)中所有關(guān)鍵詞長度;
補零模塊,用于若不滿足,則在連續(xù)聲學(xué)特征幀的前方進行補零,進而達到設(shè)定幀數(shù);并且將補零相應(yīng)的位置標記為非關(guān)鍵詞語義幀標簽。
9.根據(jù)權(quán)利要求6所述的一種基于語義保留的語音喚醒系統(tǒng),其特征在于,還包括:
數(shù)據(jù)增強模塊,用于對連續(xù)聲學(xué)特征幀以及對應(yīng)的流式幀級別標簽進行數(shù)據(jù)增強處理。
10.根據(jù)權(quán)利要求6所述的一種基于語義保留的語音喚醒系統(tǒng),其特征在于,所述流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò)確定模塊具體包括:
流式語音喚醒系統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元,用于根據(jù)神經(jīng)網(wǎng)絡(luò)的識別結(jié)果進行反向傳播,進而更新神經(jīng)網(wǎng)絡(luò)的參數(shù),完成語音喚醒神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科南京智能技術(shù)研究院,未經(jīng)中科南京智能技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210780418.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





