[發(fā)明專(zhuān)利]基于連續(xù)混合高斯HMM模型的物流分揀地名語(yǔ)音識(shí)別方法、系統(tǒng)及物流分揀系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201611177730.4 | 申請(qǐng)日: | 2016-12-19 |
| 公開(kāi)(公告)號(hào): | CN106601230B | 公開(kāi)(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計(jì))人: | 蔡熙;聶騰云;賴(lài)雪軍;謝巍;車(chē)松勛 | 申請(qǐng)(專(zhuān)利權(quán))人: | 蘇州金峰物聯(lián)網(wǎng)技術(shù)有限公司;上海韻達(dá)貨運(yùn)有限公司 |
| 主分類(lèi)號(hào): | G10L15/02 | 分類(lèi)號(hào): | G10L15/02;G10L15/05;G10L15/14;G10L25/21 |
| 代理公司: | 上海晨皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 215123 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 連續(xù) 混合 hmm 模型 物流 分揀 地名 語(yǔ)音 識(shí)別 方法 系統(tǒng) | ||
1.基于連續(xù)混合高斯HMM模型的物流分揀地名語(yǔ)音識(shí)別方法,其特征在于:包括如下步驟:
S1,接收一未知地名語(yǔ)音信號(hào),進(jìn)行預(yù)處理;
S2,通過(guò)改進(jìn)的短時(shí)平均能量及過(guò)零率的雙門(mén)限端點(diǎn)檢測(cè)方法對(duì)經(jīng)過(guò)預(yù)處理的地名語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),剪切出信號(hào)段;所述改進(jìn)的短時(shí)平均能量及過(guò)零率的雙門(mén)限端點(diǎn)檢測(cè)方法包括如下過(guò)程:
S21,初始狀態(tài)下,狀態(tài)變量status=0,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count=0,用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量slience1=0,接收經(jīng)過(guò)預(yù)處理的地名語(yǔ)音信號(hào),從第一幀信號(hào)開(kāi)始判斷每幀語(yǔ)音信號(hào)的能量amp[i]與最低能量閾值amp2、最高能量閾值amp1的大小以及判斷過(guò)零率zcr[i]與過(guò)零率閾值z(mì)cr的大小,確定狀態(tài)變量status的值,其中i為第i幀信號(hào);
S22,當(dāng)當(dāng)前幀語(yǔ)音信號(hào)的能量amp[i]<最低能量閾值amp2時(shí),將狀態(tài)變量status設(shè)置為0,表明仍處于靜音段,按照S21步驟進(jìn)行下一幀檢測(cè);
S23,當(dāng)最高能量閾值amp1>當(dāng)前幀語(yǔ)音信號(hào)的能量amp[i]>最低能量閾值amp2,且當(dāng)前幀語(yǔ)音信號(hào)的過(guò)零率zcr[i]>過(guò)零率閾值z(mì)cr,將狀態(tài)變量status設(shè)置為1,表明可能處于語(yǔ)音段,并將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量slience1加1,按照S21步驟進(jìn)行下一幀檢測(cè);
S24,若已經(jīng)進(jìn)入狀態(tài)status=1,且當(dāng)下一幀語(yǔ)音信號(hào)的能量小于最低能量閾值amp2時(shí),判斷slience16是否成立,若成立,表示當(dāng)前是噪音段,舍棄前面的語(yǔ)音部分,按照S21步驟繼續(xù)下一幀檢測(cè);若不成立,則表示可能在語(yǔ)音段,將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量slience1加1,按照S21步驟進(jìn)行下一幀檢測(cè);
S25,當(dāng)當(dāng)前幀語(yǔ)音信號(hào)的能量amp[i]>最高能量閾值amp1,則將狀態(tài)變量status設(shè)置為2,表示進(jìn)入語(yǔ)音段,同時(shí)將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,按照S26步驟進(jìn)行下一幀檢測(cè);
S26,判斷當(dāng)前幀語(yǔ)音信號(hào)的能量amp[i]>最低能量閾值amp2或當(dāng)前幀語(yǔ)音信號(hào)的過(guò)零率zcr[i]>過(guò)零率閾值z(mì)cr是否成立;
S27,若成立,表示還在語(yǔ)音段,則狀態(tài)變量status繼續(xù)保持為2,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,按照S26步繼續(xù)下一幀檢測(cè);
S28,若不成立,則將靜音長(zhǎng)度slience加1,并執(zhí)行S29步驟;
S29,判斷靜音長(zhǎng)度slience<最大靜音長(zhǎng)度maxslience是否成立,并執(zhí)行S210或S211;
S210,若成立,則表示可能還在語(yǔ)音段,狀態(tài)變量status繼續(xù)保持為2,將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,同時(shí)靜音段長(zhǎng)度slience加1,按照S26步驟進(jìn)行下一幀檢測(cè);
S211,若不成立,則判斷語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count<語(yǔ)音信號(hào)最小長(zhǎng)度minlen是否成立,并執(zhí)行S212或S213;
S212,若成立,表明前面檢測(cè)出來(lái)的都是噪聲,將狀態(tài)變量status設(shè)置為0、靜音段長(zhǎng)度slience設(shè)置為0、語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count設(shè)置為0,再繼續(xù)檢驗(yàn);
S213,若不成立,表示語(yǔ)音段已經(jīng)找到,將狀態(tài)參數(shù)status設(shè)置為3,結(jié)束進(jìn)程;
S3,對(duì)經(jīng)過(guò)端點(diǎn)檢測(cè)的地名語(yǔ)音信號(hào)進(jìn)行特征提取,形成N×39的特征矩陣;
S4,建立地名語(yǔ)音模型庫(kù);
S41,定義一個(gè)包含如下參數(shù)的連續(xù)混合高斯HMM模型,λ=(N,M,A,π,B),其中:
N,模型狀態(tài)數(shù),為4;
M,每個(gè)狀態(tài)所對(duì)應(yīng)的高斯函數(shù)的個(gè)數(shù),每個(gè)狀態(tài)包含3個(gè)39維的高斯函數(shù),一個(gè)模型中N個(gè)狀態(tài)中每個(gè)狀態(tài)高斯函數(shù)個(gè)數(shù)相同;
A,狀態(tài)轉(zhuǎn)移概率矩陣,A={aij},aij=P[qt+1=j(luò)/qt=i],1≤i,j≤N,其中,qt=i表示在t時(shí)刻處在狀態(tài)i,t表示某一時(shí)刻,qt+1=j(luò)表示t+1時(shí)刻在狀態(tài)j,整體表示從狀態(tài)i轉(zhuǎn)換到狀態(tài)j的概率;
π,各狀態(tài)的起始概率分布,π=πt,πt=P[qi=i],1≤i≤N,i表示各個(gè)狀態(tài)對(duì)應(yīng)的起始概率,π=πt表示從狀態(tài)i開(kāi)始的概率;
B,輸出概率密度函數(shù),B={bj(o)},1≤j≤N,其中,o為觀察向量,M為每個(gè)狀態(tài)包含的高斯函數(shù)的個(gè)數(shù);cjl為第j個(gè)狀態(tài)第l個(gè)混合高斯函數(shù)的權(quán),L為正態(tài)高斯概率密度函數(shù),μjl為第j個(gè)狀態(tài)第l個(gè)混合高斯元的均值矢量,Ujl為第j個(gè)狀態(tài)第l個(gè)混合高斯元的協(xié)方差矩陣;
S42,模型初始化,將初始狀態(tài)π=πt向量設(shè)置為(1 0 0 0),狀態(tài)轉(zhuǎn)移矩陣A在其自身轉(zhuǎn)移的概率和轉(zhuǎn)移到下一個(gè)狀態(tài)的概率均為0.5,每個(gè)高斯函數(shù)均為39階的均值為0、方差為1的函數(shù),權(quán)重均為1/3;
S43,將一類(lèi)地名語(yǔ)音信號(hào)的特征矩陣代入模型中,利用Baum-Welch迭代算法進(jìn)行一次模型參數(shù)訓(xùn)練;所述一類(lèi)地名語(yǔ)音信號(hào)是指將一個(gè)地名的所有樣本語(yǔ)音信號(hào)的特征矩陣數(shù)據(jù)放到一起,根據(jù)均值聚類(lèi)法k-means進(jìn)行聚類(lèi),分為4類(lèi),對(duì)應(yīng)4個(gè)狀態(tài);
S44,根據(jù)計(jì)算出的模型參數(shù),使用viterbi算法求出一類(lèi)地名語(yǔ)音信號(hào)出現(xiàn)的概率;
S45,將該概率和訓(xùn)練之前的輸出概率相比較,判斷兩者的相對(duì)誤差是否滿(mǎn)足輸出條件;
S46,若符合輸出條件,輸出該類(lèi)地名語(yǔ)音信號(hào)對(duì)應(yīng)的連續(xù)混合高斯HMM模型,所述輸出條件為相對(duì)誤差小于0.000001;
S47,若不符合輸出條件,判斷訓(xùn)練次數(shù)是否達(dá)到最高訓(xùn)練閾值;
S48,若訓(xùn)練次數(shù)未到達(dá)最高訓(xùn)練閾值,則重復(fù)S43-S47步驟,若訓(xùn)練次數(shù)達(dá)到最高訓(xùn)練閾值,則終止訓(xùn)練,輸出連續(xù)混合高斯HMM模型;
S49,將若干類(lèi)地名語(yǔ)音信號(hào)的特征矩陣代入模型中,重復(fù)S43-S48步驟,得到若干個(gè)不同地名對(duì)應(yīng)的連續(xù)混合高斯HMM模型,所有的連續(xù)混合高斯HMM模型數(shù)據(jù)形成地名語(yǔ)音識(shí)別模型庫(kù);
S5,將N×39的特征矩陣代入S4步驟中已建立好的、包含若干不同類(lèi)地名語(yǔ)音信號(hào)對(duì)應(yīng)的連續(xù)混合高斯HMM模型的地名語(yǔ)音模型庫(kù)中,通過(guò)viterbi算法求取它對(duì)每一類(lèi)地名語(yǔ)音信號(hào)對(duì)應(yīng)的連續(xù)混合高斯HMM模型的輸出概率,并把所述未知地名語(yǔ)音信號(hào)的特征矩陣識(shí)別為輸出概率最大的那一類(lèi),即為該未知地名語(yǔ)音信號(hào)對(duì)應(yīng)的地名。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于蘇州金峰物聯(lián)網(wǎng)技術(shù)有限公司;上海韻達(dá)貨運(yùn)有限公司,未經(jīng)蘇州金峰物聯(lián)網(wǎng)技術(shù)有限公司;上海韻達(dá)貨運(yùn)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611177730.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 聲音識(shí)別系統(tǒng)
- 基于DTW與HMM證據(jù)融合的特種車(chē)?guó)Q笛聲識(shí)別方法
- 基于HMM的小區(qū)切換決策算法及裝置
- 基于隱馬爾克夫模型的食品安全風(fēng)險(xiǎn)預(yù)測(cè)方法
- 基于云端的設(shè)備及其操作方法
- 一種基于變分BP-HMM的人的行為軌跡識(shí)別方法
- 一種基于分層隱馬爾科夫模型的定位方法
- 基于連續(xù)混合高斯HMM模型的地名語(yǔ)音信號(hào)識(shí)別方法
- 病癥評(píng)估方法、終端設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種基于HMM的刷單預(yù)測(cè)系統(tǒng)及方法





