[發明專利]一種基于語音頻譜融合特征的手機來源識別方法有效
| 申請號: | 201710550925.7 | 申請日: | 2017-07-07 |
| 公開(公告)號: | CN107507626B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 王讓定;裴安山;嚴迪群;金超;秦天蕓 | 申請(專利權)人: | 寧波大學 |
| 主分類號: | G10L25/18 | 分類號: | G10L25/18;G10L25/51 |
| 代理公司: | 寧波奧圣專利代理有限公司 33226 | 代理人: | 周玨 |
| 地址: | 315211 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 頻譜 融合 特征 手機 來源 識別 方法 | ||
1.一種基于語音頻譜融合特征的手機來源識別方法,其特征在于包括以下步驟:
①利用M個不同的手機,獲得N個人的每人對應的P個語音樣本,將每個手機對應的共N×P個語音樣本構成一個語音庫;其中,M>1,N≥1,1≤P≤10;
②對每個手機對應的語音庫中的每個語音樣本進行分幀加窗處理,得到每個手機對應的語音庫中的每個語音樣本的T幀;然后對每個手機對應的語音庫中的每個語音樣本中的每幀進行快速傅里葉變換,得到每個手機對應的語音庫中的每個語音樣本中的每幀的J個頻率點各自的頻率值;接著在頻域計算每個手機對應的語音庫中的每個語音樣本中的每幀的前個頻率點中的每個頻率點的頻率值的幅值,將第m個手機對應的語音庫中的第p個語音樣本中的第t幀的第k個頻率點的頻率值的幅值記為||xm,p,t(k)||,其中,對每個手機對應的語音庫中的每個語音樣本進行分幀加窗處理時所采用的窗函數選擇漢明窗窗函數,T>1,J為快速傅里葉變換的點數,J的取值為512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,xm,p,t(k)表示第m個手機對應的語音庫中的第p個語音樣本中的第t幀的第k個頻率點的頻率值,為xm,p,t(k)的共扼;
③計算每個手機對應的語音庫中的每個語音樣本的所有幀的前個頻率點中的每個頻率點的頻率值的幅值沿時間軸的統計平均值,將第m個手機對應的語音庫中的第p個語音樣本的所有幀的第k個頻率點的頻率值的幅值沿時間軸的統計平均值記為xm,p(k),然后計算每個手機對應的語音庫中的每個語音樣本的所有幀的前個頻率點中的每個頻率點的概率,將第m個手機對應的語音庫中的第p個語音樣本的所有幀的第k個頻率點的概率記為prm,p(k),再計算每個手機對應的語音庫中的每個語音樣本的所有幀的前個頻率點中的每個頻率點的統計平均信息量特征,將第m個手機對應的語音庫中的第p個語音樣本的所有幀的第k個頻率點的統計平均信息量特征記為Im,p(k),Im,p(k)=-log2(prm,p(k));
計算每個手機對應的語音庫中的每個語音樣本的所有幀的前個頻率點中的每個頻率點的統計平均對數譜特征,將第m個手機對應的語音庫中的第p個語音樣本的所有幀的第k個頻率點的統計平均對數譜特征記為Lm,p(k),其中,eps為一個用于防止||xm,p,t(k)||+eps為0的隨機正數;
計算每個手機對應的語音庫中的每個語音樣本的所有幀的前個頻率點中的每個頻率點的統計平均相位譜特征,將第m個手機對應的語音庫中的第p個語音樣本的所有幀的第k個頻率點的統計平均相位譜特征記為其中,表示第m個手機對應的語音庫中的第p個語音樣本中的第t幀的第k個頻率點的相位譜特征,tan-1()為求反正切函數,sin()為求正弦函數,cos()為求余弦函數,xm,p,t(q)表示第m個手機對應的語音庫中的第p個語音樣本中的第t幀的第q個頻率點的頻率值,1≤q≤J;
④將每個手機對應的語音庫中的每個語音樣本的所有幀的前個頻率點的統計平均信息量特征、統計平均對數譜特征、統計平均相位譜特征按序排列組成一個維數為的行向量,作為每個手機對應的語音庫中的每個語音樣本的頻譜融合特征,將第m個手機對應的語音庫中的第p個語音樣本的頻譜融合特征記為Rm,p,;然后將所有手機對應的語音庫中的所有語音樣本的頻譜融合特征組成一個維數為的頻譜融合特征矩陣;接著對頻譜融合特征矩陣中的每個元素進行歸一化處理;之后利用BestFirst搜索算法和CfsSubsetEval屬性評估算法,對歸一化后的頻譜融合特征矩陣進行特征選擇,得到一個最優特征矩陣,最優特征矩陣的行數為M×N×P行、列數大于1且小于再將最優特征矩陣中的每一行作為對應的語音樣本的最終頻譜融合特征;其中,Im,p(1)表示第m個手機對應的語音庫中的第p個語音樣本的所有幀的第1個頻率點的統計平均信息量特征,表示第m個手機對應的語音庫中的第p個語音樣本的所有幀的第個頻率點的統計平均信息量特征,Lm,p(1)表示第m個手機對應的語音庫中的第p個語音樣本的所有幀的第1個頻率點的統計平均對數譜特征,表示第m個手機對應的語音庫中的第p個語音樣本的所有幀的第個頻率點的統計平均對數譜特征,表示第m個手機對應的語音庫中的第p個語音樣本的所有幀的第1個頻率點的統計平均相位譜特征,表示第m個手機對應的語音庫中的第p個語音樣本的所有幀的第個頻率點的統計平均相位譜特征;
⑤按照網格化方法對基于徑向基核函數的LibSVM中的懲罰系數和伽馬系數進行交叉驗證,得到懲罰系數和伽馬系數的組合的最優值;然后根據懲罰系數和伽馬系數的組合的最優值,對M×N×P個語音樣本的最終頻譜融合特征以K-折交叉驗證方式進行模型訓練和測試樣本識別;其中,網格化方法采用5×5的網格,懲罰系數的取值范圍為20到50,伽馬系數的取值范圍是0.1到2,K-折交叉驗證中的參數K的取值范圍為大于或等于2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波大學,未經寧波大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710550925.7/1.html,轉載請聲明來源鉆瓜專利網。





