[發(fā)明專利]一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010463600.7 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN111833884A | 公開(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計)人: | 鄒佳宏 | 申請(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G06N3/04;G06N3/08;G06F17/14;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 聲紋 特征 提取 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本申請實施例提供了一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括:獲取待識別語音數(shù)據(jù);提取待識別語音數(shù)據(jù)的時域特征和頻域特征;對時域特征和頻域特征進行特征聚合,得到聚合后的特征,其中,在對時域特征和頻域特征進行特征聚合的過程中,將相似度大于預設(shè)相似度的時域特征和頻域特征聚合在一起;對聚合后的特征進行向量嵌入,得到聲紋特征。可見,通過本申請實施例提供的技術(shù)方案,提取待識別語音數(shù)據(jù)的特征更加全面,并且,可以實現(xiàn)將同一用戶的語音數(shù)據(jù)的時域特征和頻域特征聚合在一起,增加聚合后的特征的區(qū)分度,從而提取的聲紋特征的區(qū)分度更高,有利于提高聲紋識別的準確率。
技術(shù)領(lǐng)域
本申請涉及語音技術(shù)領(lǐng)域,特別是涉及一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
聲紋識別又叫說話人識別,是一種根據(jù)說話人聲音特征,來識別說話人身份的生物識別技術(shù)。可廣泛應用于安防、金融、反欺詐等領(lǐng)域。其關(guān)鍵技術(shù)在于如何提取具有足夠區(qū)分度的聲紋特征,聲紋特征的提取效果,直接影響了聲紋識別的準確率。
目前,聲紋特征提取主要有基于高斯超向量因子分析的傳統(tǒng)方法,在利用該方法提取聲紋特征的過程中,由于將高維特征映射到低維向量過程中,因子選取的不確定性即無法確定哪些因子有效,以及低維向量包含的無關(guān)信道信息,嚴重影響了聲紋特征的提取效果,直接影響了聲紋識別的準確率。
發(fā)明內(nèi)容
為解決相關(guān)技術(shù)中存在的因聲紋特征的提取效果較差而導致聲紋識別的準確率,本申請實施例提供了一種聲紋特征提取方法、裝置、電子設(shè)備及存儲介質(zhì)。
第一方面,本申請實施例提供了一種聲紋特征提取方法,所述方法包括:
獲取待識別語音數(shù)據(jù);
提取所述待識別語音數(shù)據(jù)的時域特征和頻域特征;
對所述時域特征和所述頻域特征進行特征聚合,得到聚合后的特征,其中,在對所述時域特征和所述頻域特征進行特征聚合的過程中,將相似度大于預設(shè)相似度的時域特征和頻域特征聚合在一起;
對所述聚合后的特征進行向量嵌入,得到聲紋特征。
可選的,所述提取所述待識別語音數(shù)據(jù)的時域特征和頻域特征,包括:
將所述待識別語音數(shù)據(jù)進行短時傅里葉變換,得到所述待識別語音數(shù)據(jù)的頻譜圖信息,所述頻譜圖信息包括:時域信息和頻域信息;
將所述頻譜圖信息的時域信息和頻域信息輸入到二維卷積神經(jīng)網(wǎng)絡,得到所述待識別語音數(shù)據(jù)的時域特征和頻域特征。
可選的,所述對所述時域特征和所述頻域特征進行特征聚合,得到聚合后的特征,包括:
將所述時域特征和所述頻域特征輸入到局部向量聚合層,以使得所述局部向量聚合層對時域信息或者頻域信息相似度大于預設(shè)相似度的時域特征和頻域特征聚合在一起。
可選的,所述對所述聚合后的特征進行向量嵌入,得到聲紋特征,包括:
將所述聚合后的特征輸入到全連接層,得到聲紋特征。
可選的,在所述對所述聚合后的特征進行向量嵌入,得到聲紋特征之后,所述方法還包括:
將所述聲紋特征輸入到分類器中,以使得所述分類器計算所述聲紋特征與預先存儲的預設(shè)聲紋特征之間的相似度,并通過計算得到的相似度確定所述待識別語音數(shù)據(jù)對應的用戶標識;
其中,所述預設(shè)聲紋特征對應預設(shè)用戶的用戶標識。
第二方面,本申請實施例提供了一種聲紋特征提取裝置,所述裝置包括:
語音數(shù)據(jù)獲取模塊,用于獲取待識別語音數(shù)據(jù);
特征提取模塊,用于提取所述待識別語音數(shù)據(jù)的時域特征和頻域特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010463600.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





