[發明專利]基于聲紋識別的語音識別方法及裝置、存儲介質、終端在審
| 申請號: | 202011478575.6 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112599136A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 喬磊;肖彥果;李丹 | 申請(專利權)人: | 江蘇惠通集團有限責任公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L21/0216;G10L15/08;G06F16/68;G06F16/683 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 武振華;吳敏 |
| 地址: | 212003 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聲紋 識別 語音 方法 裝置 存儲 介質 終端 | ||
一種基于聲紋識別的語音識別方法及裝置、存儲介質、終端,所述方法包括:確定用戶的遠場語音數據;對所述遠場語音數據進行聲紋識別,以得到所述用戶的聲紋信息;根據所述聲紋信息,從多個客制化數據庫中選擇所述用戶的客制化數據庫;確定所述遠場語音數據包含的各條待識別語音;針對每條待識別語音,分別在所述用戶的客制化數據庫中查找是否存在與所述待識別語音一致的預設語音,如果存在,則根據所述語義指示信息確定所述待識別語音的語義。本發明可以有效降低算力需求以及資源消耗,并提高對該用戶的語音識別的準確率。
技術領域
本發明涉及生物識別技術領域,尤其涉及一種基于聲紋識別的語音識別方法及裝置、存儲介質、終端。
背景技術
目前的智能語音設備都是通過對用戶的錄音進行數據庫比對的方式來進行識別,識別率隨著現在數據庫的完善和算力的提升越來越高。
然而,在現有的語音識別技術中,對資源的消耗也在成倍增長,對云端服務器的要求越來越高,同時支持用戶的數量增長緩慢。
亟需一種語音識別方法,可以有效降低算力需求以及資源消耗,以及提高對該用戶的語音識別的準確率。
發明內容
本發明解決的技術問題是提供一種基于聲紋識別的語音識別方法及裝置、存儲介質、終端,可以有效降低算力需求以及資源消耗,并且有效地提高對該用戶的語音識別的準確率。
為解決上述技術問題,本發明實施例提供一種基于聲紋識別的語音識別方法,包括:確定用戶的遠場語音數據;對所述遠場語音數據進行聲紋識別,以得到所述用戶的聲紋信息;根據所述聲紋信息,從多個客制化數據庫中選擇所述用戶的客制化數據庫,其中,每位用戶有各自的客制化數據庫,每個客制化數據庫包含對應用戶的聲紋信息以及一條或多條語義指示信息,每條語義指示信息用于指示至少一條預設語音與該預設語音的語義之間的映射關系;確定所述遠場語音數據包含的各條待識別語音;針對每條待識別語音,分別在所述用戶的客制化數據庫中查找是否存在與所述待識別語音一致的預設語音,如果存在,則根據所述語義指示信息確定所述待識別語音的語義。
可選的,確定用戶的遠場語音數據包括:采集用戶的初始遠場語音數據;對所述初始遠場語音數據進行數據處理,以得到所述遠場語音數據。
可選的,所述采集用戶的初始遠場語音數據包括:采用遠場麥克風陣列遠距離采集用戶的語音數據,以得到所述用戶的初始遠場語音數據。
可選的,對所述初始遠場語音數據進行數據處理包括:采用降噪算法和/或增強算法對所述初始遠場語音數據進行數據處理,以得到所述遠場語音數據。
可選的,采用降噪算法和/或增強算法對所述初始遠場語音數據進行數據處理選自以下一項或多項:采用相位差降噪算法兩位差對所述初始遠場語音數據進行數據處理;采用多MIC高保真降噪算法對所述初始遠場語音數據進行數據處理;采用多麥克遠場增強算法對所述初始遠場語音數據進行數據處理。
可選的,所述降噪算法和/或增強算法包含兩種或兩種以上算法;在采用降噪算法和/或增強算法對所述初始遠場語音數據進行數據處理后,所述的基于聲紋識別的語音識別方法還包括:對分別采用所述兩種或兩種以上算法處理后的數據進行數據合成。
可選的,所述的基于聲紋識別的語音識別方法還包括:如果不存在與所述待識別語音一致的預設語音,則在確定所述待識別語音的語義后,對所述用戶的客制化數據庫進行更新,以增加所述待識別語音的語義指示信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇惠通集團有限責任公司,未經江蘇惠通集團有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011478575.6/2.html,轉載請聲明來源鉆瓜專利網。





