[發(fā)明專利]一種基于質(zhì)量維度的聲紋識別算法評估方法有效
| 申請?zhí)枺?/td> | 201910633799.0 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110335611B | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設計)人: | 董波;王道寧;張亞東;陶亮;廖志梁 | 申請(專利權(quán))人: | 易誠高科(大連)科技有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L15/08;G10L17/04 |
| 代理公司: | 大連優(yōu)路智權(quán)專利代理事務所(普通合伙) 21249 | 代理人: | 宋春昕;劉國萃 |
| 地址: | 116000 遼寧省大連市高*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 質(zhì)量 維度 聲紋 識別 算法 評估 方法 | ||
1.一種基于質(zhì)量維度的聲紋識別算法評估方法,其特征在于:包括基于目標相關(guān)的聲紋識別評估方法和基于非目標相關(guān)的聲紋識別評估方法,
基于目標相關(guān)的聲紋識別評估方法包括以下步驟:
2-1.在測試聲紋數(shù)據(jù)庫存在的情況下,對庫做參數(shù)屬性模型化分類,分類的對象包括:情緒、假音與音量;
2-2.基于情緒的測試庫分類:對測試庫每個聲紋信號進行標號,不同人的聲紋,標號不同,相同人的聲紋,標號相同;
2-2-1.對典型情緒聲紋做量化分類,以正常情緒的聲紋信號為參考,將與情緒相關(guān)的因子與個性特征分離;
2-2-2.在正常情緒下采集聲紋信號,然后按照步驟2-2-1的方法統(tǒng)計分離后信號的分布情況;
2-2-3.在不同狀態(tài)下,分別按照2-2-2的方式統(tǒng)計出各個情緒狀態(tài)下的聲紋信號分布情況;
2-2-4.基于統(tǒng)計出的聲紋信號分布情況,訓練情緒狀態(tài)分類器;
2-2-5.對庫中的任意聲紋樣本,按照步驟2-2-1的方式取得情緒聲紋頻率,然后基于步驟2-2-4給出的狀態(tài)分類器,獲得任意樣本的情緒標簽;
2-3.基于假音的測試庫信息標記:
2-3-1.假音是指通過有意識的控制而只使部分聲帶發(fā)生振動所發(fā)出來的聲音;
2-3-2.采集部分聲紋樣本,采集對象包括正常狀態(tài)下的樣本以及用假音發(fā)音的聲紋樣本;
2-3-3.對同人不同發(fā)音狀態(tài)的聲紋樣本做分組,訓練假音分類器,然后對測試庫中的樣本做真假音分類,得到任意樣本的真假音標記IDtype;
2-4.基于音量的測試庫分類:
2-4-1.音量是針對主頻的幅頻能量占平均能量的大小;
2-4-2.對所有樣本進行中心頻率提取,得到該頻率下的幅頻信息,然后幅頻信息除以短時聲紋信號的0頻幅頻,得到的比值作為各樣本的能量比η,能量比越大,認為相對音量越高;
2-5.對于得到情緒、假音、音量評估或者分類信息的測試庫而言,對需要測試的聲紋識別算法先進行一次整體的識別統(tǒng)計,找到識別失敗的樣本,然后對于識別失敗的樣本,按照不同的量化與分類維度做匯總統(tǒng)計:
2-5-1.以情緒標記為橫坐標,同區(qū)間識別失敗樣本的數(shù)量為縱坐標,統(tǒng)計情緒變化引入識別失敗的統(tǒng)計直方圖,哪個坐標下的分布概率越大,代表算法對相對應情緒的敏感度越高;
2-5-2.以是否假音為橫坐標,同狀態(tài)下識別失敗樣本的數(shù)量為縱坐標,統(tǒng)計假音引入識別失敗的統(tǒng)計直方圖,一般在刻意修改發(fā)聲狀態(tài)下的樣本會喪失個性特征,使識別率降低,但這也從客觀上說明現(xiàn)階段的聲紋識別算法泛化能力不足;
2-5-3.以相對音量大小為橫坐標,按照固定的步長對遮擋率做區(qū)間劃分,等級分類為橫坐標,同區(qū)間識別失敗樣本的數(shù)量為縱坐標,統(tǒng)計相對音量大小改變引入識別失敗的統(tǒng)計直方圖,哪個等級的分布概率越大,代表算法對相對應的敏感度越高,正常狀態(tài)下,相對音量越小,算法性能越差;
2-6.對其他要測試的算法均進行步驟2-5,得到所有算法對不同目標質(zhì)量參量的敏感度結(jié)果,在相同條件下:基于情緒的誤識別直方圖分布越廣,算法對情緒越敏感;假音狀態(tài)下的誤識別樣本數(shù)量越多,算法越不穩(wěn)定;同音量等級下,誤識別直方圖樣本數(shù)量越少,算法對音量變化的魯棒性越高;
基于非目標相關(guān)的聲紋識別評估方法包括以下步驟:
3-1.在測試聲紋庫存在的情況下,對聲紋庫做質(zhì)量屬性模型化分類,分類的對象包括:噪聲水平與背景雜音能量;
3-2.基于噪聲的測試庫分類:
3-2-1.對測試庫中的任意聲紋樣本做一次傅里葉變換,提取高頻信號的能量則取高頻段的幅頻均值作為噪聲能量,其余頻段的能量減去該均值的結(jié)果為非噪聲能量;
3-2-2.計算聲紋信號信噪比=20log(非噪聲能量/噪聲能量);
3-2-3.重復進行步驟3-2-1~3-2-2,計算出所有聲紋信號的信噪比信息snr,然后對信噪比做最大值與最小值統(tǒng)計,得到信噪比取值范圍,對整個范圍做固定步長的分區(qū),得到不同的信噪比區(qū)間,然后找到所有樣本信噪比所在區(qū)間的標號;
3-3.基于背景音的測試庫信息標記:
3-3-1.對測試庫中的任意聲紋信號,對按照步驟3-2-1進行去噪的聲紋頻譜做多個主頻統(tǒng)計,得到主頻序列中的最高頻率與最低頻率;
3-3-2.計算最高頻率與最低頻率的差值,得到音頻主頻帶范圍;
3-3-3.重復進行3-3-1~3-3-2,計算出所有樣本的頻帶范圍信息,然后做最大范圍值與最小范圍統(tǒng)計,得到范圍的取值區(qū)間,對整個區(qū)間做固定步長的分區(qū),得到不同的范圍區(qū)間,然后找到所有聲紋信號所在區(qū)間的標號;
3-4.對于得到噪聲、背景雜音量化評估或者分類信息的測試庫而言,對需要測試的聲紋識別算法先進行一次整體的識別統(tǒng)計,找到識別失敗的樣本,然后對于識別失敗的樣本,按照不同的量化與分類維度做匯總統(tǒng)計:
3-4-1.以信噪比區(qū)間為橫坐標,同區(qū)間識別失敗樣本的數(shù)量為縱坐標,統(tǒng)計信噪比引入識別失敗的統(tǒng)計直方圖,正常狀態(tài)下,信噪比等級越高,算法性能越差;
3-4-2.以不同背景雜音范圍分類為橫坐標,同區(qū)間識別失敗樣本的數(shù)量為縱坐標,統(tǒng)計模糊度引入識別失敗的統(tǒng)計直方圖,正常狀態(tài)下,雜音等級越高,算法性能越差;
3-5.對其他要測試的算法均進行步驟3-4,得到所有算法對不同非目標質(zhì)量參量的敏感度結(jié)果,在相同條件下:同質(zhì)量參數(shù)等級下,誤識別直方圖樣本數(shù)量越少,算法魯棒性越高。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于易誠高科(大連)科技有限公司,未經(jīng)易誠高科(大連)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910633799.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





