[發明專利]一種語音喚醒方法及裝置在審
| 申請號: | 202011347052.8 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112509568A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 岑吳镕;李驪 | 申請(專利權)人: | 北京華捷艾米科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/02;G10L15/26 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 林哲生 |
| 地址: | 100193 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 喚醒 方法 裝置 | ||
本發明提供了一種語音喚醒方法及裝置,利用FBank特征是根據人耳處理語音信號的方式提取的音頻特征的優勢,通過音素識別模型識別FBank特征,能得到更為準確的音素序列,在此基礎上,對語音信號的音素序列與喚醒詞的音素序列進行比較,根據比較結果能準確判斷語音信號是否包含喚醒詞方式,提高了語音喚醒的準確性,減少了誤喚醒以及喚醒失敗情況的發生,提升用戶體驗。
技術領域
本發明涉及電子信息技術領域,更具體的,涉及一種語音喚醒方法及裝置。
背景技術
隨著科技的發展,很多電子設備引入了語音識別技術,可以通過語音喚醒電子設備,控制電子設備從非工作狀態切換到工作狀態,進行工作。
但是,目前對電子設備進行語音喚醒存在著較高的誤喚醒率和喚醒失敗率,用戶體驗差。
發明內容
有鑒于此,本發明提供了一種語音喚醒方法及裝置,提高了語音喚醒的準確率。
為了實現上述發明目的,本發明提供的具體技術方案如下:
一種語音喚醒方法,包括:
在接收到語音信號的情況下,提取所述語音信號的FBank特征;
將所述FBank特征輸入預先訓練得到的音素識別模型,得到所述語音信號對應的音素序列,所述音素識別模型為利用已標注音素序列的FBank特征訓練樣本對預設深度神經網絡模型進行訓練后得到的;
對所述語音信號對應的音素序列與喚醒詞的音素序列進行比較,根據比較結果,確定是否進行語音喚醒。
可選的,所述提取所述語音信號的FBank特征,包括:
對所述語音信號進行分幀處理,得到多幀音頻;
對每一幀音頻進行預加重、添加漢明窗;
通過快速傅里葉變換,將預加重和添加漢明窗后的音頻從時域轉換為頻域;
利用三角濾波器對頻域音頻進行處理,得到所述FBank特征。
可選的,所述方法還包括:
獲取多條已標注中文文本的音頻信息與發音詞典,所述已標注中文文本的音頻信息包括:包括喚醒詞的音頻信息以及不包括喚醒詞的音頻信息;
根據所述發音詞典,將每條所述已標注中文文本的音頻信息的對應的中文文本轉換為音素序列;
提取每條所述已標注音素序列的音頻信息的FBank特征,得到所述喚醒模型的訓練樣本;
利用所述訓練樣本對預設深度神經網絡模型進行訓練,得到所述音素識別模型。
可選的,所述預設深度神經網絡模型包括七層,第一層為輸入層,第一層的節點數為71,第二層到第七層節點數為20,第七層為輸出層,第七層包括對數歸一化模塊。
可選的,所述對所述語音信號對應的音素序列與喚醒詞的音素序列進行比較,根據比較結果,確定是否進行語音喚醒,包括:
判斷所述語音信號對應的音素序列是否包含喚醒詞的音素序列;
若不包含喚醒詞的音素序列,確定所述語音信號不包含喚醒詞,不進行語音喚醒;
若包含喚醒詞的音素序列,判斷所述語音信號對應的音素序列中是否包含預設幀數的非喚醒詞音素;
若包含預設幀數的非喚醒詞音素,確定所述語音信號不包含喚醒詞,不進行語音喚醒;
若不包含預設幀數的非喚醒詞音素,確定進行語音喚醒。
一種語音喚醒裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京華捷艾米科技有限公司,未經北京華捷艾米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011347052.8/2.html,轉載請聲明來源鉆瓜專利網。





