[發明專利]地名語音信號的特征提取方法在審
| 申請號: | 201611180315.4 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106782499A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 蔡熙;聶騰云;賴雪軍;謝巍;車松勛 | 申請(專利權)人: | 蘇州金峰物流設備有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L25/45;G10L25/18;G10L25/21;G10L25/24 |
| 代理公司: | 上海晨皓知識產權代理事務所(普通合伙)31260 | 代理人: | 成麗杰 |
| 地址: | 215123 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地名 語音 信號 特征 提取 方法 | ||
1.地名語音信號的特征提取方法,其特征在于:包括如下過程:
S1,對經過端點檢測得到的地名語音信號進行分幀,并對每一幀進行加窗處理;
S2,對每一幀加窗之后的數據進行快速傅里葉變換得到各幀的頻譜,并對地名語音信號的頻譜取模平方得到其功率譜;
S3,取每幀數據的前128個數據通過Mel三角濾波器組,所述Mel三角濾波器組的設計過程如下:
S31,根據公式(1)、最大采樣頻率fs(max)、三角濾波器的數量k,計算出相鄰兩個三角濾波器的中心頻率的間隔△Mel
△Mel=fs(max)/(k+1) (1);
S32,根據△Mel算出每個濾波器在梅爾頻率范圍內中心頻率的分布之后,求出每一個三角濾波器的左端點Mel頻率、中心點Mel頻率和右端點Mel頻率,并根據公式(2)將它們轉換為實際頻率:
f=(10fm/2595-1)*700 (2)
其中fm為Mel頻率,f為實際頻率;
S33,根據公式(3)將每個三角濾波器的實際頻率轉換成對應的采樣點坐標,并計算出每個三角濾波器的起點、中心點和終點的橫坐標;
X=[f*128/400](3)
其中,X為實際頻率對應的坐標,f為實際頻率,取值范圍在1-4000HZ之間,中括號表示取整;
S34,根據公式(4)設計得到Mel三角濾波器組,
其中,Hl(k)表示第l個三角濾波器在位置k的值,k指的是采樣點位置,范圍是0-128,l表示第l個三角濾波器,c(l-1)表示第l個三角濾波器的起點的橫坐標,c(l)表示第l個三角濾波器的中心點的橫坐標,c(l+1)表示第l個三角濾波器的終點的橫坐標;
S4,根據公式(5)對Mel三角濾波器組的輸出作對數運算;
其中,s(m)指的是能量譜通過一組濾波器的輸出,N為一幀信號的采樣點個數的一半,Xa(k)表示第a幀信號的第k個采樣點,Hm(k)表示第m個三角濾波器的第k個值,M為三角濾波器的個數,m指的是第m個濾波器;
S5,將對數運算得到的數據根據公式(6)進行離散余弦變換,得到13維的向量,即MFCC系數;
其中,L指MFCC系數的階數,此處為13,N為一幀信號的采樣點個數的一半,M為三角濾波器的個數,m是第m個濾波器;
S6,在獲得地名語音信號的N幀之后,獲得N×13的特征矩陣C,將其的第一行向前擴充三行,內容和第一行保持一樣,最后一行向后擴充三行,內容和最后一行保持一樣,得到(N+6)×13的特征矩陣,按照公式(7)進行差分,得到N×13的矩陣C'(n);
C'(n)={3C(n+3,:)+2C(n+2,:)+C(n+1,:)-C(n-1)-2C(n-2)-3C(n-3) 4≤n≤N+3 (7)
S7,按照S6步驟中的方法對S6步驟得到的一階差分矩陣繼續進行二階差分求取,并將N×13的特征矩陣C、一階差分得到的矩陣以及二階差分得到的矩陣三個矩陣合成N×39的特征矩陣,即得到地名語音信號的特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州金峰物流設備有限公司,未經蘇州金峰物流設備有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611180315.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音信息播放方法、裝置及終端
- 下一篇:物品識別方法





