[發明專利]說話人識別方法、相關設備及可讀存儲介質有效
| 申請號: | 202010986890.3 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112133311B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 石周;高天 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G06V40/16;G06V10/774 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張子寬 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 說話 識別 方法 相關 設備 可讀 存儲 介質 | ||
本申請公開了一種說話人識別方法、相關設備及可讀存儲介質,上述方案中,可以獲取說話人的人臉圖像和說話人的語音信號;然后,基于說話人的人臉圖像,生成說話人的人臉身份特征;最后,基于說話人的語音信號,和,說話人的人臉身份特征,生成說話人的識別結果。由于說話人的人臉身份特征能夠反映說話人的身份信息,在說話人的語音信號無法準確反映說話人的身份信息時,說話人的人臉身份特征能夠補充說話人的身份信息,因此,同時基于說話人的語音信號,和,說話人的人臉身份特征對說話人進行識別,相對于僅基于說話人的語音信號對說話人識別,識別結果更為準確。
技術領域
本申請涉及數據處理技術領域,更具體的說,是涉及一種說話人識別方法、相關設備及可讀存儲介質。
背景技術
隨著智能識別技術的快速發展,越來越多的場景需要應用生物識別技術對說話人進行識別,例如,金融安全、國家安全、智能家居和行政司法等場景。聲紋特征是基于說話人語音信號的音波頻譜特征而提取的聲學特征,能夠反映說話人的身份信息,因此,目前多基于說話人的聲紋特征對說話人進行識別。
但是,說話人的語音信號會受說話人所處環境、說話人生理狀況等影響,導致說話人的語音信號具有各種各樣的不確定性,導致說話人的聲紋特征也具有各種各樣的不確定性,進而影響對說話人識別的準確性。
因此,如何提升對說話人識別的準確性,成為本領域技術人員亟待解決的技術問題。
發明內容
鑒于上述問題,本申請提出了一種說話人識別方法、相關設備及可讀存儲介質。具體方案如下:
一種說話人識別方法,包括:
獲取說話人的人臉圖像和所述說話人的語音信號;
基于所述說話人的人臉圖像,生成所述說話人的人臉身份特征;
基于所述說話人的語音信號,和,所述說話人的人臉身份特征,生成所述說話人的識別結果。
可選地,所述基于所述說話人的人臉圖像,生成所述說話人的人臉身份特征,包括:
利用人臉圖像處理模型對所述說話人的人臉圖像進行編碼,生成所述說話人的人臉身份特征。
可選地,所述人臉圖像處理模型的訓練過程,包括:
利用所述人臉圖像處理模型的身份自編碼模塊,對輸入的訓練人臉圖像進行編碼,得到所述訓練人臉圖像的人臉身份特征;
利用所述人臉圖像處理模型的解碼重構模塊,至少對所述訓練人臉圖像的人臉身份特征進行解碼重構,得到與所述訓練人臉圖像對應的重構圖像;
基于所述訓練人臉圖像,和,與所述訓練人臉圖像對應的重構圖像,確定重構損失;
至少以所述重構損失作為損失函數,訓練所述人臉圖像處理模型。
可選地,所述人臉圖像處理模型的訓練過程,還包括:
利用所述人臉圖像處理模型的姿態自編碼模塊,對輸入的訓練人臉圖像進行編碼,得到所述訓練人臉圖像的人臉姿態特征;
所述利用所述人臉圖像處理模型的解碼重構模塊,至少對所述訓練人臉圖像的人臉身份特征進行解碼重構,得到與所述訓練人臉圖像對應的重構圖像,包括:
利用所述人臉圖像處理模型的解碼重構模塊,對所述訓練人臉圖像的人臉身份特征和所述訓練人臉圖像的人臉姿態特征進行解碼重構,得到與所述訓練人臉圖像對應的重構圖像。
可選地,所述輸入的訓練人臉圖像的樣本標簽包括人臉姿態標簽;
則所述人臉圖像處理模型的訓練過程,還包括:
基于所述訓練人臉圖像的人臉姿態標簽,和,所述訓練人臉圖像的人臉姿態特征,確定姿態分類損失;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010986890.3/2.html,轉載請聲明來源鉆瓜專利網。





