[發(fā)明專(zhuān)利]一種自適應(yīng)門(mén)限整定語(yǔ)音端點(diǎn)檢測(cè)方法,設(shè)備及可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810680909.4 | 申請(qǐng)日: | 2018-06-27 |
| 公開(kāi)(公告)號(hào): | CN108847218B | 公開(kāi)(公告)日: | 2020-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 王曉宇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類(lèi)號(hào): | G10L15/05 | 分類(lèi)號(hào): | G10L15/05;G10L25/93 |
| 代理公司: | 濟(jì)南舜源專(zhuān)利事務(wù)所有限公司 37205 | 代理人: | 張亮 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自適應(yīng) 門(mén)限 語(yǔ)音 端點(diǎn) 檢測(cè) 方法 設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供一種自適應(yīng)門(mén)限整定語(yǔ)音端點(diǎn)檢測(cè)方法,設(shè)備及可讀存儲(chǔ)介質(zhì),設(shè)置待檢測(cè)的語(yǔ)音幀長(zhǎng)為N,k為幀數(shù),共有L幀數(shù)據(jù),獲取L幀的短時(shí)參數(shù),獲取第k幀的短時(shí)能量為amp,短時(shí)過(guò)零率為zcr;搜索參考噪音;獲取初始參考門(mén)限;檢測(cè)語(yǔ)音段起點(diǎn)x1和語(yǔ)音段終點(diǎn)x2;再次噪音提取,并獲取短時(shí)門(mén)限X(i+1);把第i+1次與第i次提取的門(mén)限值進(jìn)行比較,判斷其是否相等,通過(guò)語(yǔ)音搜索,不斷的比較前后兩幀語(yǔ)音的參數(shù)關(guān)系,合理地取得有效的參考語(yǔ)音幀,而不是單純的提取待檢測(cè)語(yǔ)音段的前幾幀。為了得到更為精準(zhǔn)的檢測(cè)效果,本發(fā)明采取了門(mén)限不斷自調(diào)整、循環(huán)檢測(cè)的方式,直至算法最終收斂。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音檢測(cè)領(lǐng)域,尤其涉及一種自適應(yīng)門(mén)限整定語(yǔ)音端點(diǎn)檢測(cè)方法,設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
端點(diǎn)檢測(cè)的目的就是在復(fù)雜的應(yīng)用環(huán)境下的信號(hào)流中分辨出語(yǔ)音信號(hào)和非語(yǔ)音信號(hào),并確定語(yǔ)音信號(hào)的開(kāi)始及結(jié)束。通過(guò)端點(diǎn)檢測(cè),一方面,能有效的除去一些冗余的噪聲信號(hào),這樣為特征提取與模式匹配節(jié)省了大量的時(shí)間,大大的提高了系統(tǒng)運(yùn)行的效率。另一方面,端點(diǎn)檢測(cè)提升了特征參數(shù)所反映說(shuō)話(huà)人個(gè)性信息所占的比重,即提升了特征參數(shù)的可靠性??梢?jiàn),端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別系統(tǒng)中至關(guān)重要的一步,其算法的優(yōu)劣在某種程度上也直接決定了整個(gè)語(yǔ)音識(shí)別系統(tǒng)的成敗。
到目前為止,端點(diǎn)檢測(cè)的研究經(jīng)歷了幾十年,產(chǎn)生了很多方法,這些方法大致可以分為兩大類(lèi):基于參數(shù)的方法和基于模型的方法。(1)基于參數(shù)門(mén)限的方法,這類(lèi)算法的基本思想是尋找出能表征語(yǔ)音和噪音差異的特征參數(shù)來(lái)進(jìn)行語(yǔ)音和噪音的時(shí)段區(qū)分。常用的參數(shù)有:短時(shí)能量、短時(shí)過(guò)零率、線(xiàn)性預(yù)測(cè)系數(shù)、頻帶方差、信息熵等。(2)基于模型的方法,此類(lèi)方法的基本思想是對(duì)噪音與語(yǔ)音分別進(jìn)行建模來(lái)區(qū)分語(yǔ)音時(shí)段和非語(yǔ)言時(shí)段,如:基于HMM的端點(diǎn)檢測(cè)、基于神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測(cè)等?;诙虝r(shí)能量和短時(shí)過(guò)零率的端點(diǎn)檢測(cè)是最為經(jīng)典的一種基于參數(shù)的檢測(cè)算法,該算法使用簡(jiǎn)單,參數(shù)提取方便,在高信噪比的情況下能夠比較準(zhǔn)確的區(qū)分出語(yǔ)音和噪聲?;贛EL倒譜特征(MFCC)的端點(diǎn)檢測(cè),倒譜參數(shù)在噪聲環(huán)境下更能夠區(qū)分語(yǔ)音段和噪音段,因此具有更好的檢測(cè)效果,但是引入MFCC參數(shù)增加了算法的復(fù)雜度。一種基于譜熵和譜能量的端點(diǎn)檢測(cè),引入了熵的概念,利用語(yǔ)音與噪聲的熵差異來(lái)區(qū)分噪音與語(yǔ)音。但是以上方法都面臨著同一個(gè)問(wèn)題,相關(guān)參數(shù)門(mén)限設(shè)定的問(wèn)題。傳統(tǒng)的方法便是取待測(cè)語(yǔ)音幀的前幾幀來(lái)設(shè)定參考門(mén)限,或是根據(jù)以往的經(jīng)驗(yàn)取一個(gè)經(jīng)驗(yàn)值。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種自適應(yīng)門(mén)限整定語(yǔ)音端點(diǎn)檢測(cè)方法,方法包括:
步驟1:設(shè)置待檢測(cè)的語(yǔ)音幀長(zhǎng)為N,k為幀數(shù),共有L幀數(shù)據(jù),獲取L幀的短時(shí)參數(shù),獲取第k幀的短時(shí)能量為amp,短時(shí)過(guò)零率為zcr;
步驟2:搜索參考噪音;
步驟3:獲取初始參考門(mén)限;
步驟4:檢測(cè)語(yǔ)音段起點(diǎn)x1和語(yǔ)音段終點(diǎn)x2;
步驟5:再次噪音提取,并獲取短時(shí)門(mén)限X(i+1);
步驟6:把第i+1次與第i次提取的門(mén)限值進(jìn)行比較,判斷其是否相等。
優(yōu)選地,步驟6之后還包括:
若X(i+1)=X(i),則算法收斂,輸出檢測(cè)結(jié)果。
優(yōu)選地,步驟6之后還包括:
若X(i+1)≠X(i),則i=i+1,轉(zhuǎn)至步驟4,基于雙門(mén)限端點(diǎn)檢測(cè),得到起點(diǎn)x1與終點(diǎn)x2;
再次噪音提取,并獲取短時(shí)門(mén)限X(i+1);
把第i+1次與第i次提取的門(mén)限值進(jìn)行比較,判斷其是否相等;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810680909.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種語(yǔ)音切分方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 下一篇:一種喚醒詞預(yù)設(shè)置信度閾值調(diào)節(jié)方法及系統(tǒng)
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無(wú)損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹(shù)木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 軟切換方法及裝置
- 無(wú)線(xiàn)通信系統(tǒng)信道估計(jì)中的抗采樣偏差處理方法和裝置
- 一種認(rèn)知無(wú)線(xiàn)網(wǎng)絡(luò)中協(xié)作頻譜感知門(mén)限優(yōu)化方法
- 一種告警系統(tǒng)及方法
- 并聯(lián)式混合動(dòng)力車(chē)的能量分配方法
- 一種資源信息確定方法及終端設(shè)備、網(wǎng)絡(luò)設(shè)備
- 門(mén)限閾值確定方法及裝置
- 網(wǎng)絡(luò)設(shè)備的光模塊門(mén)限調(diào)整方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于門(mén)限技術(shù)的抗側(cè)信道與故障攻擊的綜合防護(hù)方法
- 計(jì)數(shù)器電路
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 基于端點(diǎn)之間的安全通信方法
- 采用軟交換體系實(shí)現(xiàn)合法監(jiān)聽(tīng)的媒體控制方法
- 圖像處理設(shè)備及其方法
- 一種可實(shí)現(xiàn)平臺(tái)配置保護(hù)的雙向平臺(tái)鑒別方法及其系統(tǒng)
- 電信系統(tǒng)中管理多個(gè)主叫方身份的方法
- 數(shù)字開(kāi)關(guān)與手動(dòng)開(kāi)關(guān)之整合裝置
- 一種觸摸式按鍵及其檢測(cè)方法
- 路徑查詢(xún)方法及裝置
- 一種基于一次一密鑰的安全通信方法
- 用于識(shí)別網(wǎng)絡(luò)中的端點(diǎn)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品





