[發明專利]語音喚醒方法、裝置、電子設備和計算機可讀存儲介質在審
| 申請號: | 202210946385.5 | 申請日: | 2022-08-08 |
| 公開(公告)號: | CN115312040A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 成莎莎;趙德欣;沈浩;楊杰;李曉宇 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/22;G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 孫寶海 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 喚醒 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本公開提供了一種語音喚醒方法、裝置、電子設備和計算機可讀存儲介質,涉及語音處理技術領域。所述方法包括:根據預先訓練的神經網絡模型對待識別語音的語譜圖進行處理,得到待識別語音的聲紋特征向量和喚醒詞;根據預設的對應關系表,查詢與喚醒詞對應的注冊喚醒詞標簽,并根據注冊喚醒詞標簽,得到注冊特征向量;根據聲紋特征向量和注冊特征向量,計算向量相似度;在向量相似度大于預設的閾值的情況下,進行語音喚醒。利用一個神經網絡模型同時實現聲紋識別和語音喚醒詞匹配這兩個任務,解決了兩個任務分別構建模型導致的參數冗余、占用內存過大的問題,本公開流程更加簡潔,喚醒速度更快。
技術領域
本公開涉及語音處理技術領域,尤其涉及一種語音喚醒方法、裝置、電子設備和計算機可讀存儲介質。
背景技術
語音喚醒是指用戶通過說出喚醒詞來喚醒電子設備,使電子設備進入等待語音指令或執行語音指令的狀態。
相關技術中,對輸入的語音進行固定喚醒詞匹配的模型訓練及測試,同時對輸入的語音進行聲紋識別進行模型訓練及認證,根據這兩種模型測試結果邏輯上取交集,輸出是否喚醒的結果。通過喚醒詞匹配和聲紋識別這兩種子任務各自進行訓練模型的方法,導致模型參數冗余、占用內存過大、喚醒速度慢。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開提供一種語音喚醒方法、裝置、電子設備和計算機可讀存儲介質,至少在一定程度上克服模型參數冗余、占用內存過大、喚醒速度慢的問題。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的一個方面,提供一種語音喚醒方法,所述方法包括:
根據預先訓練的神經網絡模型對待識別語音的語譜圖進行處理,得到所述待識別語音的聲紋特征向量和喚醒詞;
根據預設的對應關系表,查詢與所述喚醒詞對應的注冊喚醒詞標簽,并根據所述注冊喚醒詞標簽,得到注冊特征向量;
根據所述聲紋特征向量和所述注冊特征向量,計算向量相似度;
在所述向量相似度大于預設的閾值的情況下,進行語音喚醒。
在本公開的一個實施例中,在所述根據預先訓練的神經網絡模型對待識別語音的語譜圖進行處理,得到所述待識別語音的聲紋特征向量和喚醒詞之前,所述方法還包括:
獲取注冊語音的語譜圖;
根據預先訓練的神經網絡模型對所述注冊語音的語譜圖進行處理,得到注冊特征向量和注冊喚醒詞標簽;
根據所述注冊特征向量和所述注冊喚醒詞標簽構建所述對應關系表。
在本公開的一個實施例中,在所述根據預先訓練的神經網絡模型對待識別語音的語譜圖進行處理,得到所述待識別語音的聲紋特征向量和喚醒詞之前,所述方法還包括:
去除待識別語音中的靜默音,得到有效待識別語音;
當所述有效待識別語音的有效音頻時長大于或等于預設的時長閾值時,對所述有效待識別語音進行處理,得到所述待識別語音的語譜圖。
在本公開的一個實施例中,所述方法還包括:
當所述有效待識別語音的有效音頻時長小于預設的時長閾值時,語音喚醒失敗。
在本公開的一個實施例中,在所述根據預先訓練的神經網絡模型對待識別語音的語譜圖進行處理,得到所述待識別語音的聲紋特征向量和喚醒詞之前,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210946385.5/2.html,轉載請聲明來源鉆瓜專利網。





