[發(fā)明專(zhuān)利]一種基于改進(jìn)型動(dòng)態(tài)時(shí)間規(guī)整語(yǔ)音識(shí)別算法的實(shí)現(xiàn)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810065149.6 | 申請(qǐng)日: | 2018-01-23 |
| 公開(kāi)(公告)號(hào): | CN108320750A | 公開(kāi)(公告)日: | 2018-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 劉昊;呂修任;姚國(guó)良 | 申請(qǐng)(專(zhuān)利權(quán))人: | 東南大學(xué)—無(wú)錫集成電路技術(shù)研究所 |
| 主分類(lèi)號(hào): | G10L15/28 | 分類(lèi)號(hào): | G10L15/28 |
| 代理公司: | 南京瑞弘專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 楊曉玲 |
| 地址: | 214135 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 規(guī)整 語(yǔ)音識(shí)別算法 匹配路徑 匹配過(guò)程 匹配距離 改進(jìn)型 運(yùn)算 平行四邊形區(qū)域 對(duì)角線 平行四邊形 相似度矩陣 邊界條件 參考模板 測(cè)試模板 傳統(tǒng)動(dòng)態(tài) 范圍限制 距離矩陣 路徑匹配 模板匹配 內(nèi)存使用 最終結(jié)果 單調(diào)性 路徑點(diǎn) 時(shí)間幀 運(yùn)算量 累加 算法 保存 成功 | ||
本發(fā)明公開(kāi)了一種基于改進(jìn)型動(dòng)態(tài)時(shí)間規(guī)整語(yǔ)音識(shí)別算法的實(shí)現(xiàn)方法,包括:根據(jù)參考模板和測(cè)試模板選取匹配路徑時(shí)滿(mǎn)足邊界條件、連續(xù)性和單調(diào)性約束的特點(diǎn),將兩者匹配路徑的選取范圍限制在相似度矩陣上靠近對(duì)角線周?chē)钠叫兴倪呅螀^(qū)域內(nèi),因此無(wú)需計(jì)算平行四邊形之外的路徑點(diǎn)所對(duì)應(yīng)的時(shí)間幀的匹配距離,并且不需要保存全部的幀匹配距離和累加距離矩陣。針對(duì)傳統(tǒng)動(dòng)態(tài)時(shí)間規(guī)整算法在匹配過(guò)程中匹配路徑過(guò)多導(dǎo)致運(yùn)算量過(guò)大的問(wèn)題,本發(fā)明通過(guò)在路徑匹配過(guò)程中進(jìn)一步加入邊界范圍的約束,成功篩除一些與模板匹配最終結(jié)果無(wú)關(guān)的路徑,大大減少了匹配過(guò)程中的不必要的運(yùn)算以及內(nèi)存使用,有效提高了動(dòng)態(tài)時(shí)間規(guī)整語(yǔ)音識(shí)別算法的運(yùn)算速度以及識(shí)別效率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于改進(jìn)型動(dòng)態(tài)時(shí)間規(guī)整語(yǔ)音識(shí)別算法的實(shí)現(xiàn)方法,屬于語(yǔ)音識(shí)別控制技術(shù)領(lǐng)域,可用于對(duì)計(jì)算量和內(nèi)存使用比較敏感的嵌入式語(yǔ)音識(shí)別技術(shù)領(lǐng)域。
背景技術(shù)
隨著人類(lèi)社會(huì)的進(jìn)步和科學(xué)技術(shù)的迅速發(fā)展,人們開(kāi)始追求智能、便捷的家居環(huán)境,語(yǔ)音識(shí)別控制技術(shù)在智能家居中的運(yùn)用變得尤其重要,它可以使得人們擺脫手動(dòng)控制設(shè)備的煩惱,只通過(guò)語(yǔ)音就可以達(dá)到控制家電設(shè)備的目的,所以語(yǔ)音識(shí)別控制成為一個(gè)熱門(mén)的研究方向。語(yǔ)音識(shí)別技術(shù)在PC(計(jì)算機(jī))這種可用資源較多、運(yùn)算能力強(qiáng)的設(shè)備上發(fā)展已較為成熟,其識(shí)別效果也已經(jīng)很好,但是在硬件資源有限、運(yùn)算能力相對(duì)較弱的嵌入式平臺(tái)上仍然面臨一些問(wèn)題,選擇合適的語(yǔ)音識(shí)別算法并進(jìn)行優(yōu)化改進(jìn)以節(jié)省硬件使用、減少計(jì)算量已經(jīng)成為必須考慮的問(wèn)題。
其中,DTW(動(dòng)態(tài)時(shí)間規(guī)整)算法是比較經(jīng)典和成熟的語(yǔ)音識(shí)別算法,它利用動(dòng)態(tài)規(guī)劃(DP)的方法有效解決了語(yǔ)音信號(hào)特征參數(shù)的幀長(zhǎng)度不等(在語(yǔ)音識(shí)別領(lǐng)域表現(xiàn)為人的語(yǔ)速變化導(dǎo)致的發(fā)音時(shí)間長(zhǎng)短不一)的問(wèn)題,即采用對(duì)輸入語(yǔ)音信號(hào)進(jìn)行伸長(zhǎng)或縮短直到與標(biāo)準(zhǔn)模式的長(zhǎng)度一致,從而計(jì)算兩個(gè)語(yǔ)音序列之間的相似性(匹配度)。在基于中小詞匯量的孤立詞語(yǔ)音識(shí)別系統(tǒng)中,其識(shí)別率與隱馬爾可夫模型(HMM)算法相差無(wú)幾,而算法復(fù)雜度卻低得多,所以DTW算法比較適合于較少詞匯量的孤立詞為主的語(yǔ)音命令控制。
DTW是一個(gè)典型的優(yōu)化問(wèn)題,它用滿(mǎn)足一定條件的時(shí)間規(guī)整函數(shù)W(n)來(lái)描述測(cè)試模板和參考模板的時(shí)間對(duì)應(yīng)關(guān)系,求解兩模板匹配時(shí)累計(jì)距離最小所對(duì)應(yīng)的規(guī)整函數(shù)。測(cè)試語(yǔ)音參數(shù)共有I幀矢量,而參考模板共有J幀矢量,I和J不等,尋找一個(gè)時(shí)間規(guī)整函數(shù)j=W(i),它將測(cè)試矢量的時(shí)間軸i非線性地映射到參考模板的時(shí)間軸j上,并使該函數(shù)滿(mǎn)足:D(i,j)為第i幀測(cè)試矢量Q(i)和第j幀模板矢量C(j)之間的距離測(cè)度,最優(yōu)時(shí)間規(guī)整情況下,所有矢量幀間的距離和∑D(i,j)最小。
給定測(cè)試語(yǔ)音序列為Q=[q1,q2,…,qi,…,qn](其中,n=N為測(cè)試語(yǔ)音序列的總幀數(shù),qi為該語(yǔ)音序列中每一幀的特征值)以及參考語(yǔ)音序列為C=[c1,c2,…,cj,…,cm](其中,m=M為參考語(yǔ)音序列的總幀數(shù),cj為該語(yǔ)音序列中每一幀的特征值),那么在n≠m的情況下(若n=m,可直接計(jì)算兩個(gè)序列的距離),為對(duì)齊這兩個(gè)語(yǔ)音序列,構(gòu)造一個(gè)n×m的矩陣網(wǎng)絡(luò),該矩陣(i,j)處的元素為qi和cj兩個(gè)點(diǎn)的距離d(qi,cj)(即序列Q的每一個(gè)點(diǎn)和序列C的每一個(gè)點(diǎn)之間的相似度,距離越小則相似度越高),一般采用歐氏距離,即d(qi,cj)=(qi-cj)2;該DP方法可以歸結(jié)為尋找一條通過(guò)此矩陣網(wǎng)絡(luò)中若干格點(diǎn)的路徑,路徑通過(guò)的格點(diǎn)(i,j)即為兩個(gè)序列進(jìn)行計(jì)算的對(duì)齊的點(diǎn)。我們把這條路徑定義為warping path規(guī)整路徑,并用W來(lái)表示,W的第k個(gè)元素定義為Wk=(i,j)k,也就是,W=w1,w2,…,wk,…,wK,且max{m,n+≤K≤m+n-1。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東南大學(xué)—無(wú)錫集成電路技術(shù)研究所,未經(jīng)東南大學(xué)—無(wú)錫集成電路技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810065149.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:遠(yuǎn)場(chǎng)語(yǔ)音控制設(shè)備和遠(yuǎn)場(chǎng)語(yǔ)音控制系統(tǒng)
- 下一篇:一種語(yǔ)音交互方法、裝置、設(shè)備和服務(wù)器
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 語(yǔ)音識(shí)別方法及相關(guān)產(chǎn)品
- 語(yǔ)音識(shí)別方法及相關(guān)產(chǎn)品
- 語(yǔ)音識(shí)別模型更新方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 算法的測(cè)試方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 語(yǔ)音識(shí)別方法及裝置
- 基于語(yǔ)音增強(qiáng)算法的對(duì)抗樣本攻擊防御方法及裝置
- 語(yǔ)音識(shí)別算法評(píng)估方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種肢體康復(fù)設(shè)備語(yǔ)音交互控制方法
- 更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 通話(huà)語(yǔ)音的識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種立體圖像的匹配搜索方法
- 在線交互過(guò)程中的交互成員匹配系統(tǒng)及匹配方法
- 高爐冶煉過(guò)程中焦炭匹配入爐的方法
- 基于多次相位匹配過(guò)程的非線性光學(xué)成像裝置
- 基于案例庫(kù)的煉油過(guò)程模糊匹配調(diào)優(yōu)方法
- 用于圖案測(cè)試的預(yù)匹配預(yù)測(cè)
- 使用問(wèn)題匹配的先驗(yàn)知識(shí)提取的加速仿真設(shè)置過(guò)程
- 特征點(diǎn)匹配方法、三維重構(gòu)過(guò)程的特征點(diǎn)匹配方法及裝置
- 一種自動(dòng)開(kāi)門(mén)結(jié)構(gòu)
- 隨機(jī)接入過(guò)程期間的TB大小不匹配





