[發明專利]一種基于改進型動態時間規整語音識別算法的實現方法在審

申請號：	201810065149.6	申請日：	2018-01-23
公開（公告）號：	CN108320750A	公開（公告）日：	2018-07-24
發明（設計）人：	劉昊;呂修任;姚國良	申請（專利權）人：	東南大學—無錫集成電路技術研究所
主分類號：	G10L15/28	分類號：	G10L15/28
代理公司：	南京瑞弘專利商標事務所(普通合伙) 32249	代理人：	楊曉玲
地址：	214135 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	規整語音識別算法匹配路徑匹配過程匹配距離改進型運算平行四邊形區域對角線平行四邊形相似度矩陣邊界條件參考模板測試模板傳統動態范圍限制距離矩陣路徑匹配模板匹配內存使用最終結果單調性路徑點時間幀運算量累加算法保存成功
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于改進型動態時間規整語音識別算法的實現方法，其特征在于，根據參考模板和測試模板選取匹配路徑時滿足邊界條件、連續性和單調性約束的特點，將兩者匹配路徑的選取范圍限制在相似度矩陣上靠近對角線周圍的平行四邊形區域內，即在匹配過程中進一步加入邊界范圍的約束。

2.根據權利要求1所述的一種基于改進型動態時間規整語音識別算法的實現方法，其特征在于，具體包括以下步驟：

S1：通過測試模板的語音序列Q＝[q₁，q₂，…，q_i，…，q_n]，其中，n＝N為測試模板的語音序列的總幀數，q_i為該語音序列中每一幀的特征值，以及參考模板的語音序列C＝[c₁，c₂，…，c_j，…，c_m]，其中，m＝M為參考模板的語音序列的總幀數，c_j為該語音序列中每一幀的特征值，得到一個n×m的相似度矩陣網絡，該矩陣(i,j)處的元素為q_i和c_j兩個點的距離d(q_i,c_j)，即d(q_i,c_j)＝(q_i-c_j)²，同時建立坐標系，以參考模板的時間幀j為x軸，以測試模板的時間幀i為y軸，來尋找一條通過此矩陣網絡中若干格點的規整代價最小的匹配路徑；

S2：判斷測試模板和參考模板之間是否滿足公式(1)的限制條件：如果不能滿足，則得到y_max＝N和y_min＝1，其中，y_max為匹配路徑選取范圍的上邊界，y_min為匹配路徑選取范圍的下邊界，直接轉至步驟S5；如果滿足公式(1)的限制條件則繼續下一步；

S3：計算得到x_a＝int[(2N-M)/3]，x_b＝int[(4M-2N)/3]，下面構建以(1，1)和(M，N)為對角線頂點以及邊的斜率分別為2和1/2的平行四邊形區域，以限制匹配路徑的選取范圍；

S4：選取范圍的邊界計算包括以下三種情況：如果x_a等于x_b，則在(1,x_a)、(x_a+1,M)兩段內通過公式(2)、(3)計算y_max和y_min；如果x_a大于x_b，則在(1,x_b)、(x_b+1,x_a)、(x_a+1,M)三段內通過公式(2)、(3)計算y_max和y_min；如果x_a小于x_b，則在(1,x_a)、(x_a+1,x_b)、(x_b+1,M)三段內通過公式(2)、(3)計算y_max和y_min，三種情況計算結束后均跳轉至步驟S5；

S5：此時，x軸上的每一幀便不再需要與y軸上的每一幀進行匹配比較，只要與y軸上[y_min,y_max]間的數據幀進行匹配比較，設定兩個列向量α、β：α為累計距離向量，β為幀匹配距離矩陣，并調用匹配函數：

其中，z的取值范圍為1,…,M，a(z)為最優時間規整情況下的兩組矢量之間的累積距離，i＝w(j)為最優時間規整情況下的時間規整函數，β[q_ω(j),c_j]為第i＝w(j)幀測試語音矢量Q(i)和第j幀模板語音矢量C(j)之間的距離d(q_i,c_j)；

S6：輸出α并結束。

3.根據權利要求2所述的一種基于改進型動態時間規整語音識別算法的實現方法，其特征在于，所述步驟S3中，對構建的平行四邊形區域采用松弛起點和松弛終點的方式進行改善，即在起始點(1，1)和結束點(M，N)處左右各松弛一到兩個點。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于東南大學—無錫集成電路技術研究所，未經東南大學—無錫集成電路技術研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810065149.6/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：遠場語音控制設備和遠場語音控制系統
下一篇：一種語音交互方法、裝置、設備和服務器

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提??；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】