[發(fā)明專利]一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202010463600.7	申請日：	2020-05-27
公開（公告）號：	CN111833884A	公開（公告）日：	2020-10-27
發(fā)明（設(shè)計）人：	鄒佳宏	申請（專利權(quán)）人：	北京三快在線科技有限公司
主分類號：	G10L17/02	分類號：	G10L17/02;G10L17/04;G10L17/18;G06N3/04;G06N3/08;G06F17/14;G06K9/62
代理公司：	北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319	代理人：	任亞娟
地址：	100083 北京市海***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種聲紋特征提取方法裝置電子設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供了一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)，該方法包括：獲取待識別語音數(shù)據(jù)；提取待識別語音數(shù)據(jù)的時域特征和頻域特征；對時域特征和頻域特征進行特征聚合，得到聚合后的特征，其中，在對時域特征和頻域特征進行特征聚合的過程中，將相似度大于預設(shè)相似度的時域特征和頻域特征聚合在一起；對聚合后的特征進行向量嵌入，得到聲紋特征。可見，通過本申請實施例提供的技術(shù)方案，提取待識別語音數(shù)據(jù)的特征更加全面，并且，可以實現(xiàn)將同一用戶的語音數(shù)據(jù)的時域特征和頻域特征聚合在一起，增加聚合后的特征的區(qū)分度，從而提取的聲紋特征的區(qū)分度更高，有利于提高聲紋識別的準確率。

技術(shù)領(lǐng)域

本申請涉及語音技術(shù)領(lǐng)域，特別是涉及一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)

聲紋識別又叫說話人識別，是一種根據(jù)說話人聲音特征，來識別說話人身份的生物識別技術(shù)。可廣泛應用于安防、金融、反欺詐等領(lǐng)域。其關(guān)鍵技術(shù)在于如何提取具有足夠區(qū)分度的聲紋特征，聲紋特征的提取效果，直接影響了聲紋識別的準確率。

目前，聲紋特征提取主要有基于高斯超向量因子分析的傳統(tǒng)方法，在利用該方法提取聲紋特征的過程中，由于將高維特征映射到低維向量過程中，因子選取的不確定性即無法確定哪些因子有效，以及低維向量包含的無關(guān)信道信息，嚴重影響了聲紋特征的提取效果，直接影響了聲紋識別的準確率。

發(fā)明內(nèi)容

為解決相關(guān)技術(shù)中存在的因聲紋特征的提取效果較差而導致聲紋識別的準確率，本申請實施例提供了一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)。

第一方面，本申請實施例提供了一種聲紋特征提取方法，所述方法包括：

獲取待識別語音數(shù)據(jù)；

提取所述待識別語音數(shù)據(jù)的時域特征和頻域特征；

對所述時域特征和所述頻域特征進行特征聚合，得到聚合后的特征，其中，在對所述時域特征和所述頻域特征進行特征聚合的過程中，將相似度大于預設(shè)相似度的時域特征和頻域特征聚合在一起；

對所述聚合后的特征進行向量嵌入，得到聲紋特征。

可選的，所述提取所述待識別語音數(shù)據(jù)的時域特征和頻域特征，包括：

將所述待識別語音數(shù)據(jù)進行短時傅里葉變換，得到所述待識別語音數(shù)據(jù)的頻譜圖信息，所述頻譜圖信息包括：時域信息和頻域信息；

將所述頻譜圖信息的時域信息和頻域信息輸入到二維卷積神經(jīng)網(wǎng)絡，得到所述待識別語音數(shù)據(jù)的時域特征和頻域特征。

可選的，所述對所述時域特征和所述頻域特征進行特征聚合，得到聚合后的特征，包括：

將所述時域特征和所述頻域特征輸入到局部向量聚合層，以使得所述局部向量聚合層對時域信息或者頻域信息相似度大于預設(shè)相似度的時域特征和頻域特征聚合在一起。

可選的，所述對所述聚合后的特征進行向量嵌入，得到聲紋特征，包括：

將所述聚合后的特征輸入到全連接層，得到聲紋特征。

可選的，在所述對所述聚合后的特征進行向量嵌入，得到聲紋特征之后，所述方法還包括：

將所述聲紋特征輸入到分類器中，以使得所述分類器計算所述聲紋特征與預先存儲的預設(shè)聲紋特征之間的相似度，并通過計算得到的相似度確定所述待識別語音數(shù)據(jù)對應的用戶標識；

其中，所述預設(shè)聲紋特征對應預設(shè)用戶的用戶標識。

第二方面，本申請實施例提供了一種聲紋特征提取裝置，所述裝置包括：

語音數(shù)據(jù)獲取模塊，用于獲取待識別語音數(shù)據(jù)；

特征提取模塊，用于提取所述待識別語音數(shù)據(jù)的時域特征和頻域特征；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司，未經(jīng)北京三快在線科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010463600.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：充電站監(jiān)控方法、裝置、系統(tǒng)、存儲介質(zhì)和電子設(shè)備
下一篇：一種人機對話方法及系統(tǒng)

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】