[發明專利]語音指令識別方法、裝置、可讀存儲介質和電子設備在審
| 申請號: | 202010515168.1 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111833867A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 袁龍;王飛 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/02;G10L17/02;G10L17/00 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 指令 識別 方法 裝置 可讀 存儲 介質 電子設備 | ||
本發明實施例公開了一種語音指令識別方法、裝置、可讀存儲介質和電子設備,通過確定待處理語音信息中的各幀對應的幀特征,確定各所述幀特征對應的特征字概率向量以得到概率向量序列,根據預定的滑動搜索窗搜索所述概率向量序列以確定所述滑動搜索窗內的概率向量子序列與預設指令詞的第一匹配結果,再根據第一匹配結果再進行聲紋匹配以確定語音指令識別結果。本發明實施例可以通過第一次匹配過程識別所述待處理語音信息中是否包括預設指令詞以及包括預設指令詞的位置,再根據第一匹配結果進行聲紋匹配以識別所述預設指令詞的發聲對象,由此通過兩次匹配過程排除語音指令識別過程中的干擾因素,提高語音指令識別的準確度。
技術領域
本發明涉及計算機技術領域,尤其涉及一種語音指令識別方法、裝置、可讀存儲介質和電子設備。
背景技術
目前,語音識別功能被廣泛應用在各類軟件平臺,例如社交軟件、電商軟件、外賣平臺、地圖軟件以及網約車平臺等。其中大多數軟件平臺都可以安裝在移動設備并通過移動設備接收用戶的語音信息,以進行語音識別過程。由于移動設備的便攜性,用戶的語音信息可能會在各種各樣的環境下生成,因此通常會帶有環境噪音、人聲噪音等不必要的信息,影響語音識別的準確率。
發明內容
有鑒于此,本發明實施例提供一種語音指令識別方法、裝置、可讀存儲介質和電子設備,旨在排除語音指令識別過程中的干擾因素,提高語音指令識別的準確度。
第一方面,本發明實施例提供一種語音指令識別方法,所述方法包括:
確定待處理語音信息,所述待處理語音信息包括多個幀;
確定所述待處理語音信息的語音特征信息序列,所述語音特征信息序列包括所述待處理語音信息中各幀的語音特征信息;
根據所述語音特征信息序列確定所述待處理語音信息中各幀對應的幀特征;
將各所述幀特征輸入預先訓練的字識別模型,以確定各幀的特征字概率向量,所述特征字概率向量包括所述幀特征與各預設特征字的匹配概率;
根據各幀的特征字概率向量確定所述待處理語音信息的概率向量序列;
根據具有預設長度的滑動搜索窗搜索所述概率向量序列,以確定所述滑動搜索窗內的概率向量子序列與預設指令詞的第一匹配結果,其中,所述預設指令詞包括以預定順序排列的至少兩個預設特征字;
根據所述第一匹配結果進行聲紋匹配以確定語音指令識別結果。
進一步地,所述確定待處理語音信息包括:
響應于接收到任務信息,獲取預設時長的語音信息;
對所述預設時長的語音信息進行預處理,以確定所述待處理語音信息。
進一步地,所述確定所述待處理語音信息的語音特征信息序列具體為:
分別對所述待處理語音信息中的各幀提取Fbank特征作為語音特征信息,以確定語音特征信息序列。
進一步地,所述根據所述語音特征信息序列確定所述待處理語音信息中各幀對應的幀特征包括:
確定目標幀;
確定在時間軸上與所述目標幀存在預定位置關系的至少一個關聯幀;
根據所述目標幀的語音特征信息和所述關聯幀的語音特征信息確定所述目標幀的幀特征。
進一步地,所述根據所述語音特征信息序列確定所述待處理語音信息中各幀對應的幀特征還包括:
響應于在時間軸上與所述目標幀存在預定位置關系的關聯幀數量比預定數量少P幀,增加P個空幀作為關聯幀,P為不小于等于1的整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010515168.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:臍橙白蘭地原料處理一體裝置
- 下一篇:一種應用評價方法及應用平臺服務器





