[發明專利]一種基于級聯DNN的語音喚醒優化方法在審
| 申請號: | 201910334772.1 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN109887511A | 公開(公告)日: | 2019-06-14 |
| 發明(設計)人: | 趙升 | 申請(專利權)人: | 武漢水象電子科技有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/24;G10L17/18 |
| 代理公司: | 連云港聯創專利代理事務所(特殊普通合伙) 32330 | 代理人: | 劉剛 |
| 地址: | 430000 湖北省武漢市東湖新技術開發區關南*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 第一級 過程計算 后驗概率 聲學特征 喚醒 語音 截取 級聯 前向 輸出 音素 語料 逐幀 實時語音信號 環境適應性 麥克風 喚醒檢測 抗噪能力 聲學模型 實時獲取 特征抽取 語言模型 語音信號 固定窗 固定的 聲學 窗長 建模 兩級 優化 判定 文本 采集 | ||
1.一種基于級聯DNN的語音喚醒優化方法,其特征在于,包括以下步驟:
1)實時獲取麥克風采集的語音信號,經過特征抽取,獲得實時語音信號的逐幀聲學特征;
2)以固定窗長,截取聲學特征序列,形成一幀,作為第一級DNN的輸入;
3)經過第一級DNN聲學模型的前向過程計算,輸出得到逐幀音素的聲學后驗概率;
4)以固定的窗長截取第一級DNN的輸出,形成一幀音素后驗概率序列,作為第二級DNN的輸入;
5)經過第二級DNN前向過程計算,判定是否喚醒,并輸出喚醒與否的判定結果。
2.如權利要求1所述的基于級聯DNN的語音喚醒優化方法,其特征在于,所述步驟1)中特征抽取是指實時語音的MFCC(Mel Frequency Cepstral Coefficents)特征提取,共14維度,第14維為當前幀的對數能量。
3.根據權利要求1所述的基于級聯DNN的語音喚醒優化方法,其特征在于,所述步驟3)中,經過第一級DNN聲學模型的前向過程計算,輸出得到逐幀音素的聲學后驗概率,包含以下步驟:
1)將幀變形至維度為1,形成1維的特征序列;
2)將1維特征序列送入第一級DNN,進行音素級聲學后驗概率計算;
3)經過第一級DNN前向計算獲得關鍵詞音素、靜音音素或者非關鍵詞音素的聲學后驗概率。
4.根據權利要求3所述的基于級聯DNN的語音喚醒優化方法,其特征在于,所述的第一級DNN為上下文相關的音素聲學模型,利用一個多層全連接神經網絡對聲學特征序列建模。
5.根據權利要求3所述的基于級聯DNN的語音喚醒優化方法,其特征在于,所述的關鍵詞音素為組成關鍵詞的所有音素,非關鍵詞音素是指除關鍵詞音素和靜音音素以外所有音素,模型中統一標定為filler。
6.根據權利要求1所述的一種基于級聯DNN的語音喚醒優化方法,其特征在于,步驟5)中,經過第二級DNN前向過程計算,判定是否喚醒,包含如下步驟:
1)將音素后驗概率序列變形至1維,作為第二級DNN的輸入;
2)第二級DNN經過前向計算,音素后驗概率序列的分類結果:喚醒或者不喚醒。
7.根據權利要求6所述的一種基于級聯DNN的語音喚醒優化方法,其特征在于,所述的音素后驗概率序列為第一級DNN輸出的多個音素聲學后驗概率的組合,這種組合在時序上是連續的。
8.根據權利要求6所述的一種基于級聯DNN的語音喚醒優化方法,其特征在于,所述的音素后驗概率序列模型,利用一個多層的全連接神經網絡對音素后驗概率序列進行建模。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢水象電子科技有限公司,未經武漢水象電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910334772.1/1.html,轉載請聲明來源鉆瓜專利網。





