[發明專利]多模態語音識別方法、系統及計算機可讀存儲介質有效
| 申請號: | 202110913351.1 | 申請日: | 2021-08-10 |
| 公開(公告)號: | CN113744731B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 林峰;劉天天;高銘;王超;巴鐘杰;韓勁松;許文曜;任奎 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/16;G10L15/02 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 王愛濤 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態 語音 識別 方法 系統 計算機 可讀 存儲 介質 | ||
1.一種多模態語音識別方法,其特征在于,包括:
獲取目標毫米波信號和目標音頻信號;所述目標毫米波信號為毫米波雷達接收到的反射信號,其中,包含喉嚨振動信息;
當所述目標毫米波信號和所述目標音頻信號均包含目標用戶對應的人聲信息時,計算第一對數梅爾頻譜系數和第二對數梅爾頻譜系數;所述第一對數梅爾頻譜系數是根據所述目標毫米波信號確定的,所述第二對數梅爾頻譜系數是根據所述目標音頻信號確定的;
將所述第一對數梅爾頻譜系數和所述第二對數梅爾頻譜系數輸入到融合網絡中,以確定目標融合特征;所述融合網絡至少包括校準模塊和映射模塊;所述校準模塊用于根據所述目標音頻信號對所述目標毫米波信號進行特征校準處理,根據所述目標毫米波信號對所述目標音頻信號進行特征校準處理,以獲取校準后的毫米波特征和校準后的音頻特征;所述映射模塊用于對所述校準后的毫米波特征和所述校準后的音頻特征進行融合處理,以得到目標融合特征;
將所述目標融合特征輸入到語義特征網絡中,以確定所述目標用戶對應的語音識別結果。
2.根據權利要求1所述的一種多模態語音識別方法,其特征在于,所述獲取目標毫米波信號和目標音頻信號,具體包括:
獲取毫米波雷達采集的目標毫米波信號;
獲取麥克風采集的目標音頻信號。
3.根據權利要求1所述的一種多模態語音識別方法,其特征在于,所述當所述目標毫米波信號和所述目標音頻信號均包含目標用戶對應的人聲信息時,計算第一對數梅爾頻譜系數和第二對數梅爾頻譜系數,具體包括:
判斷所述目標毫米波信號和所述目標音頻信號是否均包括人聲信息,得到第一判斷結果;
若所述第一判斷結果表示所述目標毫米波信號和所述目標音頻信號均包括人聲信息,則判斷所述目標毫米波信號和所述目標音頻信號是否均來自目標用戶,得到第二判斷結果;
若所述第二判斷結果表示所述目標毫米波信號和所述目標音頻信號均來自目標用戶,則對所述目標毫米波信號和所述目標音頻信號分別進行短時傅里葉變換處理,以確定第一對數梅爾頻譜系數和第二對數梅爾頻譜系數。
4.根據權利要求3所述的一種多模態語音識別方法,其特征在于,所述判斷所述目標毫米波信號和所述目標音頻信號是否均包括人聲信息,得到第一判斷結果,具體包括:
對所述所述目標毫米波信號和所述目標音頻信號分別進行預處理;
對預處理后的目標毫米波信號進行快速傅里葉變換處理以提取毫米波相位信號;
對所述毫米波相位信號進行差分處理以提取毫米波相位差信號;
將預處理后的目標音頻信號與所述毫米波相位差信號相乘,以獲得目標乘積分量;
計算所述目標乘積分量的譜熵;
判斷所述譜熵是否大于設定閾值;
其中,當所述譜熵大于設定閾值時,表明所述目標毫米波信號和所述目標音頻信號均包括人聲信息。
5.根據權利要求4所述的一種多模態語音識別方法,其特征在于,所述判斷所述目標毫米波信號和所述目標音頻信號是否均來自目標用戶,具體包括:
對所述目標乘積分量進行處理以提取目標線性預測編碼分量;
將所述目標線性預測編碼分量輸入到訓練好的一類支持向量機中,以判斷所述目標毫米波信號和所述目標音頻信號是否均來自目標用戶;
其中,所述訓練好的一類支持向量機是根據訓練數據和一類支持向量機確定的;所述訓練數據包括多個標定乘積分量以及每個所述標定乘積分量對應的標簽;所述標簽為標定用戶;所述標定乘積分量是根據所述標定用戶對應的毫米波信號和音頻信號確定的乘積分量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110913351.1/1.html,轉載請聲明來源鉆瓜專利網。





