[發(fā)明專利]語(yǔ)音活性檢測(cè)方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010867436.6 | 申請(qǐng)日: | 2020-08-25 |
| 公開(kāi)(公告)號(hào): | CN111816216A | 公開(kāi)(公告)日: | 2020-10-23 |
| 發(fā)明(設(shè)計(jì))人: | 胡雪成 | 申請(qǐng)(專利權(quán))人: | 蘇州思必馳信息科技有限公司 |
| 主分類號(hào): | G10L25/78 | 分類號(hào): | G10L25/78;G10L25/84;G10L15/04;G10L25/30 |
| 代理公司: | 北京商專永信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 活性 檢測(cè) 方法 裝置 | ||
本發(fā)明公開(kāi)一種語(yǔ)音活性檢測(cè)方法和裝置,其中,語(yǔ)音活性檢測(cè)方法,包括:將待檢測(cè)音頻輸入幀級(jí)別VAD系統(tǒng)中進(jìn)行幀級(jí)別的語(yǔ)音活性檢測(cè),獲取所述幀級(jí)別VAD系統(tǒng)輸出的第一音頻;將所述第一音頻輸入句子級(jí)別VAD系統(tǒng)中進(jìn)行句子級(jí)別的語(yǔ)音活性檢測(cè),獲取所述句子級(jí)別VAD系統(tǒng)輸出的第二音頻,并對(duì)所述第二音頻進(jìn)行后續(xù)處理。通過(guò)在已有的幀級(jí)別VAD系統(tǒng)之后附加一個(gè)句子級(jí)的VAD系統(tǒng),可以實(shí)現(xiàn)對(duì)前一個(gè)系統(tǒng)判定為語(yǔ)音的音頻進(jìn)行進(jìn)一步的整句級(jí)的判定,減少音頻的誤判定,提高了非語(yǔ)音段的召回率,進(jìn)一步的節(jié)省了后端識(shí)別的資源。
技術(shù)領(lǐng)域
本發(fā)明屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及語(yǔ)音活性檢測(cè)方法和裝置。
背景技術(shù)
語(yǔ)音活性檢測(cè)(Voice activity detection,VAD),也稱為speech activitydetectionorspeech detection,是一項(xiàng)用于語(yǔ)音處理的技術(shù),目的是檢測(cè)語(yǔ)音信號(hào)是否存在。VAD技術(shù)主要用于語(yǔ)音編碼和語(yǔ)音識(shí)別。它可以簡(jiǎn)化語(yǔ)音處理,也可用于在音頻會(huì)話期間去除非語(yǔ)音片段:可以在IP電話應(yīng)用中避免對(duì)靜音數(shù)據(jù)包的編碼和傳輸,節(jié)省計(jì)算時(shí)間和帶寬。
VAD技術(shù)使得一些列基于語(yǔ)音的應(yīng)用程序成為現(xiàn)實(shí)。因此,有一系列的VAD算法,具有不同的特性和延遲時(shí)間、靈敏度、精度和計(jì)算成本。有些VAD算法也提供了進(jìn)一步的分析,例如講話是否濁音、清音或持續(xù)。語(yǔ)音活動(dòng)檢測(cè)通常是與語(yǔ)言無(wú)關(guān)的。
VAD技術(shù)首先被用于時(shí)分語(yǔ)言內(nèi)插法(time-assignment speech interpolation/TASI)系統(tǒng)。
基于傳統(tǒng)聲學(xué)特征如短時(shí)能量、頻譜能量、過(guò)零率等或基于神經(jīng)網(wǎng)絡(luò)提取的特征來(lái)進(jìn)行語(yǔ)音活動(dòng)檢測(cè),對(duì)每一幀音頻都給出是否是語(yǔ)音的判定。這種方法在信噪比較高時(shí)擁有很好的性能。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種語(yǔ)音活性檢測(cè)方法及裝置,用于至少解決上述技術(shù)問(wèn)題之一。
第一方面,本發(fā)明實(shí)施例提供一種語(yǔ)音活性檢測(cè)方法,包括:將待檢測(cè)音頻輸入幀級(jí)別VAD系統(tǒng)中進(jìn)行幀級(jí)別的語(yǔ)音活性檢測(cè),獲取所述幀級(jí)別VAD系統(tǒng)輸出的第一音頻;將所述第一音頻輸入句子級(jí)別VAD系統(tǒng)中進(jìn)行句子級(jí)別的語(yǔ)音活性檢測(cè),獲取所述句子級(jí)別VAD系統(tǒng)輸出的第二音頻,并對(duì)所述第二音頻進(jìn)行后續(xù)處理。
第二方面,本發(fā)明實(shí)施例提供一種語(yǔ)音活性檢測(cè)裝置,包括:第一輸入檢測(cè)輸出模塊,配置為將待檢測(cè)音頻輸入幀級(jí)別VAD系統(tǒng)中進(jìn)行幀級(jí)別的語(yǔ)音活性檢測(cè),獲取所述幀級(jí)別VAD系統(tǒng)輸出的第一音頻;第二輸入檢測(cè)輸出模塊,配置為將所述第一音頻輸入句子級(jí)別VAD系統(tǒng)中進(jìn)行句子級(jí)別的語(yǔ)音活性檢測(cè),獲取所述句子級(jí)別VAD系統(tǒng)輸出的第二音頻,并對(duì)所述第二音頻進(jìn)行后續(xù)處理。
第三方面,提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括存儲(chǔ)在非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,當(dāng)所述程序指令被計(jì)算機(jī)執(zhí)行時(shí),使所述計(jì)算機(jī)執(zhí)行第一方面所述的語(yǔ)音活性檢測(cè)方法的步驟。
第四方面,本發(fā)明實(shí)施例還提供一種電子設(shè)備,其包括:至少一個(gè)處理器,以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器,其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行第一方面所述方法的步驟。
本申請(qǐng)實(shí)施例提供的方法通過(guò)在已有的幀級(jí)別VAD系統(tǒng)之后附加一個(gè)句子級(jí)的VAD系統(tǒng),可以實(shí)現(xiàn)對(duì)前一個(gè)系統(tǒng)判定為語(yǔ)音的音頻進(jìn)行進(jìn)一步的整句級(jí)的判定,減少音頻的誤判定,提高了非語(yǔ)音段的召回率,進(jìn)一步的節(jié)省了后端識(shí)別的資源。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州思必馳信息科技有限公司,未經(jīng)蘇州思必馳信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010867436.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





