[發(fā)明專利]用于語音活動(dòng)性檢測的方法和設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201710599104.2 | 申請(qǐng)日: | 2013-08-30 |
| 公開(公告)號(hào): | CN107195313B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計(jì))人: | 馬丁·紹爾斯戴德 | 申請(qǐng)(專利權(quán))人: | 瑞典愛立信有限公司 |
| 主分類號(hào): | G10L25/78 | 分類號(hào): | G10L25/78 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 穆童 |
| 地址: | 瑞典斯*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 語音 活動(dòng)性 檢測 方法 設(shè)備 | ||
根據(jù)本發(fā)明的示例性實(shí)施例,公開了一種用于語音活動(dòng)性檢測(VAD)的方法和設(shè)備。VAD包括:創(chuàng)建指示初級(jí)VAD判決的信號(hào);以及確定尾響添加。尾響添加的確定是根據(jù)短期活動(dòng)性測量和/或長期活動(dòng)性測量作出的。然后,創(chuàng)建指示最終VAD判決的信號(hào)。
分案說明
本申請(qǐng)是申請(qǐng)日為2013年8月30日,申請(qǐng)?zhí)枮?01380044957.X,題為“用于語音活動(dòng)性檢測的方法和設(shè)備”的中國專利申請(qǐng)的分案申請(qǐng)。
技術(shù)領(lǐng)域
本公開大體上涉及用于語音活動(dòng)性檢測(VAD)的方法和設(shè)備。
背景技術(shù)
在用于對(duì)話話音的話音編碼系統(tǒng)中,通常使用非連續(xù)發(fā)送(DTX)來增加編碼的效率。原因是對(duì)話話音包含了大量被嵌入話音中的停頓,例如當(dāng)一個(gè)人在說話而另一個(gè)人在聆聽時(shí)。因此在DTX的情況下,話音編碼器平均僅在大約50%的時(shí)間上是活動(dòng)的,且可以使用舒適噪聲對(duì)其余時(shí)間進(jìn)行編碼。具有該特征的一些示例編解碼器是自適應(yīng)多速率窄帶(AMR NB)和增強(qiáng)型可變速率編解碼器(EVRC)。AMR NB使用DTX,而EVRC使用可變比特率(VBR),其中速率確定算法(RDA)基于VAD判決來決定針對(duì)每個(gè)幀使用哪個(gè)數(shù)據(jù)速率。在DTX操作中,使用編解碼器對(duì)話音活動(dòng)幀進(jìn)行編碼,而用舒適噪聲替換活動(dòng)區(qū)域之間的幀。在編碼器中對(duì)舒適噪聲參數(shù)進(jìn)行估計(jì),并使用降低的幀速率和比用于活動(dòng)話音的比特速率更低的比特率將其發(fā)送到解碼器。
對(duì)于高質(zhì)量DTX操作,即,在沒有劣化的話音質(zhì)量的情況下,在輸入信號(hào)中檢測話音的周期是重要的。這一般是通過語音活動(dòng)性檢測器(VAD)(用于DTX和RDA兩者)來實(shí)現(xiàn)的。圖1示出了一般VAD 100的示例的整體框圖,其獲取根據(jù)實(shí)現(xiàn)通常被劃分為5至30ms的數(shù)據(jù)幀的輸入信號(hào)111作為輸入,并產(chǎn)生VAD判決作為輸出(一般對(duì)于每個(gè)幀有一個(gè)判決)。即,VAD判決是針對(duì)每幀的該幀是包含話音還是噪聲的判決。
在本示例中,初步判決(vad_prim 113)由初級(jí)語音檢測器101作出,并且在本示例中基本上僅是針對(duì)當(dāng)前幀的特征和背景特征(一般根據(jù)先前輸入幀進(jìn)行估計(jì))的比較,其中大于閾值的差產(chǎn)生活動(dòng)初級(jí)判決。在其他示例中,初步判決可以以其他方式實(shí)現(xiàn),以下進(jìn)一步簡單地討論其他方式中的一些。初級(jí)語音檢測器的內(nèi)部操作的細(xì)節(jié)對(duì)本公開不是特別重要,并且產(chǎn)生初步判決的任意初級(jí)語音檢測器在本上下文中將是有用的。在本示例中,尾響添加(hangover addition)塊102用于基于過去初級(jí)判決來擴(kuò)展初級(jí)判決,以形成最終判決vad_flag 115。使用尾響的原因主要是為了減少/消除“講到一半”(mid speech)的風(fēng)險(xiǎn)以及“突發(fā)語音”(speech burst)的后端截?cái)?backend clipping)。然而,該尾響也可以用于避免音樂段落的截?cái)唷?/p>
為了DTX,還可以添加附加尾響。在圖1中,已經(jīng)由可選的輸出vad_flag_dtx 117對(duì)其進(jìn)行表示。應(yīng)當(dāng)注意的是,當(dāng)輸出要用于DTX時(shí),僅存在一個(gè)輸出vad_flag而尾響邏輯使用其他設(shè)置并非罕見。在本說明書中,為了簡化描述,兩個(gè)最終判決輸出vad_flag 115和vad_flag_dtx 117在大多數(shù)實(shí)施例中是分離的。然而,基于備選尾響設(shè)置和一個(gè)單獨(dú)輸出的方案同樣是可應(yīng)用的。
根據(jù)VAD判決是否用于DTX來使用不同最終判決輸出或尾響設(shè)置存在兩個(gè)主要原因。第一,從話音質(zhì)量的角度看,當(dāng)VAD用于DTX時(shí),存在對(duì)VAD更高的要求。因此,希望確保在切換到舒適噪聲之前話音已經(jīng)結(jié)束。第二個(gè)動(dòng)機(jī)是,附加尾響可以用于估計(jì)背景噪聲的特征。例如,在AMR NB中,在解碼器中基于所使用的特定DTX切換,進(jìn)行第一舒適噪聲估計(jì)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于瑞典愛立信有限公司,未經(jīng)瑞典愛立信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710599104.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種智能車載終端及其省電省流量的方法
- 下一篇:音頻播放控制裝置及方法





