[發明專利]一種基于改進型動態時間規整語音識別算法的實現方法在審
| 申請號: | 201810065149.6 | 申請日: | 2018-01-23 |
| 公開(公告)號: | CN108320750A | 公開(公告)日: | 2018-07-24 |
| 發明(設計)人: | 劉昊;呂修任;姚國良 | 申請(專利權)人: | 東南大學—無錫集成電路技術研究所 |
| 主分類號: | G10L15/28 | 分類號: | G10L15/28 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 楊曉玲 |
| 地址: | 214135 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 規整 語音識別算法 匹配路徑 匹配過程 匹配距離 改進型 運算 平行四邊形區域 對角線 平行四邊形 相似度矩陣 邊界條件 參考模板 測試模板 傳統動態 范圍限制 距離矩陣 路徑匹配 模板匹配 內存使用 最終結果 單調性 路徑點 時間幀 運算量 累加 算法 保存 成功 | ||
1.一種基于改進型動態時間規整語音識別算法的實現方法,其特征在于,根據參考模板和測試模板選取匹配路徑時滿足邊界條件、連續性和單調性約束的特點,將兩者匹配路徑的選取范圍限制在相似度矩陣上靠近對角線周圍的平行四邊形區域內,即在匹配過程中進一步加入邊界范圍的約束。
2.根據權利要求1所述的一種基于改進型動態時間規整語音識別算法的實現方法,其特征在于,具體包括以下步驟:
S1:通過測試模板的語音序列Q=[q1,q2,…,qi,…,qn],其中,n=N為測試模板的語音序列的總幀數,qi為該語音序列中每一幀的特征值,以及參考模板的語音序列C=[c1,c2,…,cj,…,cm],其中,m=M為參考模板的語音序列的總幀數,cj為該語音序列中每一幀的特征值,得到一個n×m的相似度矩陣網絡,該矩陣(i,j)處的元素為qi和cj兩個點的距離d(qi,cj),即d(qi,cj)=(qi-cj)2,同時建立坐標系,以參考模板的時間幀j為x軸,以測試模板的時間幀i為y軸,來尋找一條通過此矩陣網絡中若干格點的規整代價最小的匹配路徑;
S2:判斷測試模板和參考模板之間是否滿足公式(1)的限制條件:如果不能滿足,則得到ymax=N和ymin=1,其中,ymax為匹配路徑選取范圍的上邊界,ymin為匹配路徑選取范圍的下邊界,直接轉至步驟S5;如果滿足公式(1)的限制條件則繼續下一步;
S3:計算得到xa=int[(2N-M)/3],xb=int[(4M-2N)/3],下面構建以(1,1)和(M,N)為對角線頂點以及邊的斜率分別為2和1/2的平行四邊形區域,以限制匹配路徑的選取范圍;
S4:選取范圍的邊界計算包括以下三種情況:如果xa等于xb,則在(1,xa)、(xa+1,M)兩段內通過公式(2)、(3)計算ymax和ymin;如果xa大于xb,則在(1,xb)、(xb+1,xa)、(xa+1,M)三段內通過公式(2)、(3)計算ymax和ymin;如果xa小于xb,則在(1,xa)、(xa+1,xb)、(xb+1,M)三段內通過公式(2)、(3)計算ymax和ymin,三種情況計算結束后均跳轉至步驟S5;
S5:此時,x軸上的每一幀便不再需要與y軸上的每一幀進行匹配比較,只要與y軸上[ymin,ymax]間的數據幀進行匹配比較,設定兩個列向量α、β:α為累計距離向量,β為幀匹配距離矩陣,并調用匹配函數:
其中,z的取值范圍為1,…,M,a(z)為最優時間規整情況下的兩組矢量之間的累積距離,i=w(j)為最優時間規整情況下的時間規整函數,β[qω(j),cj]為第i=w(j)幀測試語音矢量Q(i)和第j幀模板語音矢量C(j)之間的距離d(qi,cj);
S6:輸出α并結束。
3.根據權利要求2所述的一種基于改進型動態時間規整語音識別算法的實現方法,其特征在于,所述步驟S3中,對構建的平行四邊形區域采用松弛起點和松弛終點的方式進行改善,即在起始點(1,1)和結束點(M,N)處左右各松弛一到兩個點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學—無錫集成電路技術研究所,未經東南大學—無錫集成電路技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810065149.6/1.html,轉載請聲明來源鉆瓜專利網。





