[發(fā)明專利]一種說話人確認方法及裝置有效
| 申請?zhí)枺?/td> | 201710214666.0 | 申請日: | 2017-04-01 |
| 公開(公告)號: | CN107146624B | 公開(公告)日: | 2019-11-22 |
| 發(fā)明(設計)人: | 李藍天;王東 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 11002 北京路浩知識產(chǎn)權代理有限公司 | 代理人: | 湯財寶<國際申請>=<國際公布>=<進入 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 說話 確認 方法 裝置 | ||
本發(fā)明提供一種說話人確認方法及裝置,包括:獲取第二語音;將預先獲取的第一語音和所述第二語音轉換成對應的第一聲譜圖和第二聲譜圖;使用卷積神經(jīng)網(wǎng)絡對所述第一聲譜圖和所述第二聲譜圖進行特征提取,獲取對應的第一特征和第二特征;使用時延神經(jīng)網(wǎng)絡對所述第一特征和所述第二特征進行特征提取,獲取對應的第三特征和第四特征;根據(jù)所述第三特征和所述第四特征對說話人進行確認。本發(fā)明通過將卷積神經(jīng)網(wǎng)絡和時延神經(jīng)網(wǎng)絡相結合,對所述第一語音和所述第二語音進行兩次特征提取,將最終提取的第三特征和第四特征進行比較,從而實現(xiàn)對說話人的確認,本發(fā)明計算簡單,魯棒性強,能達到很好的識別效果。
技術領域
本發(fā)明涉及語音識別領域,更具體地,涉及一種說話人確認方法及裝置。
背景技術
說話人確認是通過聲音特征對說話人進行身份驗證的方法。在進行說話人確認時,用戶先預留一段聲音,然后輸入驗證語音。將驗證語音與系統(tǒng)預留語音進行對比,即可判斷該用戶是否存在。
目前,說話人確認方法以統(tǒng)計模型為主,性能較好的說話人確認方法一般基于i-vector模型和PLDA模型。i-vector模型對語音信號建立如下線性模型:
X=Tw+v
其中,X為語音信號的MFCC特征,T為一個低秩矩陣,w為句子向量,即i-vector,v為高斯噪聲。該模型事實上是一個概率PCA模型。實際應用中,一般將語音空間分成若干區(qū)域,對每個區(qū)域進行上述線性建模。所有區(qū)域共享句子向量w。w是一個低維向量,包含說話人、說話內(nèi)容、信道等信息。為提高對說話人的區(qū)分性,引入PLDA模型:
w=Hu+Kc+n
其中u為說話人向量,c為表達向量,包括發(fā)音方式,信道等,n為高斯噪聲。PLDA將說話人特征和表達特征區(qū)分開。
上述模型基于通用的MFCC特征,通過模型將說話人信息分離出來。該方法基于信號的分布狀態(tài)建模,因此需要較多的數(shù)據(jù)才能得到較好的結果,而且計算量較大,且容易受到信道、噪聲和時變的影響。
發(fā)明內(nèi)容
為克服上述需要數(shù)據(jù)多、計算量大且魯棒性差的問題或者至少部分地解決上述問題,本發(fā)明提供一種說話人確認方法及裝置。
根據(jù)本發(fā)明的一個方面,提供一種說話人確認方法,包括:
獲取第二語音;
將預先獲取的第一語音和所述第二語音轉換成對應的第一聲譜圖和第二聲譜圖;
使用卷積神經(jīng)網(wǎng)絡對所述第一聲譜圖和所述第二聲譜圖進行特征提取,獲取對應的第一特征和第二特征;
使用時延神經(jīng)網(wǎng)絡對所述第一特征和所述第二特征進行特征提取,獲取對應的第三特征和第四特征;
根據(jù)所述第三特征和所述第四特征對說話人進行確認。
具體地,在使用卷積神經(jīng)網(wǎng)絡對所述第一聲譜圖和所述第二聲譜圖進行特征提取之前,還包括:
對所述卷積神經(jīng)網(wǎng)絡和所述時延神經(jīng)網(wǎng)絡進行訓練。
具體地,在使用時延神經(jīng)網(wǎng)絡對所述第一特征和所述第二特征進行特征提取之前,還包括:
對所述第一特征和所述第二特征進行降維。
具體地,所述使用時延神經(jīng)網(wǎng)絡對所述第一特征和所述第二特征進行特征提取,獲取對應的第三特征和第四特征,包括:
分別對所述第一語音和所述第二語音中的幀進行拼接;
對所述第一語音中拼接后的幀對應的所述第一特征和所述第二語音中拼接后的幀對應的所述第二特征進行降維;
對降維后的所述第一特征和第二特征進行線性變換,獲取對應的第三特征和第四特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710214666.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:電路板插接模塊(TX?DY?MK)
- 下一篇:插座(國標一轉三帶三USB)





