[發(fā)明專利]基于深度學(xué)習(xí)的流式實(shí)時(shí)語(yǔ)音激活檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210135633.8 | 申請(qǐng)日: | 2022-02-14 |
| 公開(公告)號(hào): | CN114550753A | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計(jì))人: | 苗啟廣;宋建鋒;聶磊;劉如意;盧子祥;劉向增;趙博程;馬卓奇;郗岳 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué)重慶集成電路創(chuàng)新研究院 |
| 主分類號(hào): | G10L25/87 | 分類號(hào): | G10L25/87;G10L25/30;G10L25/03;G06N3/04;G06N3/08 |
| 代理公司: | 西安恒泰知識(shí)產(chǎn)權(quán)代理事務(wù)所 61216 | 代理人: | 李鄭建 |
| 地址: | 400031 重慶市沙坪*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 實(shí)時(shí) 語(yǔ)音 激活 檢測(cè) 方法 | ||
本發(fā)明涉及一種基于深度學(xué)習(xí)的流式語(yǔ)音激活檢測(cè)方法,先輸入RAW聲音波形信號(hào)片段,進(jìn)行聲學(xué)特征提取,結(jié)合SpecAugment數(shù)據(jù)增強(qiáng)算法計(jì)算得到提取后的聲學(xué)特征張量;然后構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡(luò)模型,輸出結(jié)果為0或1,其中1代表語(yǔ)音信號(hào),0代表非語(yǔ)音信號(hào),并訓(xùn)練得到可用的作為語(yǔ)音激活檢測(cè)模型權(quán)重參數(shù);最后語(yǔ)音激活檢測(cè)模型在執(zhí)行預(yù)測(cè)時(shí),將得到的聲學(xué)特征張量作為輸入,得到預(yù)測(cè)輸出結(jié)果。對(duì)于算法模型的實(shí)時(shí)性、準(zhǔn)確率、魯棒性、和彈性伸縮性等,都具有良好的表現(xiàn),能夠?yàn)檎Z(yǔ)音通信、語(yǔ)音識(shí)別、智能問答、視頻會(huì)議實(shí)時(shí)字幕和實(shí)時(shí)翻譯等應(yīng)用場(chǎng)景提供關(guān)鍵技術(shù)支持,同時(shí)也可用于非實(shí)時(shí)性的場(chǎng)景,具有一舉兩得的效果。
技術(shù)領(lǐng)域
本發(fā)明屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的流式實(shí)時(shí)語(yǔ)音激活檢測(cè)方法。
背景技術(shù)
語(yǔ)音激活檢測(cè)技術(shù)常用于音視頻通話、語(yǔ)音識(shí)別、語(yǔ)音合成等任務(wù)中,用以實(shí)現(xiàn)語(yǔ)音片段和非語(yǔ)音片段的區(qū)分判別,可以用來(lái)切分語(yǔ)音人說(shuō)話時(shí)的聲音波形片段、降低數(shù)據(jù)傳輸流量,和聲音去噪等。通常語(yǔ)音信號(hào)被標(biāo)記為1,非語(yǔ)音信號(hào)被標(biāo)記為0。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語(yǔ)音激活檢測(cè)技術(shù)也從傳統(tǒng)的算法模型轉(zhuǎn)為深度學(xué)習(xí)算法模型,但幾乎常見的技術(shù)并未有實(shí)現(xiàn)了基于深度學(xué)習(xí)的流式實(shí)時(shí)語(yǔ)音激活檢測(cè)算法和模型。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種基于深度學(xué)習(xí)的流式語(yǔ)音激活檢測(cè)方法。
為了實(shí)現(xiàn)上述任務(wù),本發(fā)明采取如下的技術(shù)解決方案:
一種基于深度學(xué)習(xí)的流式語(yǔ)音激活檢測(cè)方法,其特征在于,按以下步驟實(shí)施:
步驟1,輸入RAW聲音波形信號(hào)400ms、800ms或2000ms的片段,進(jìn)行聲學(xué)特征提取,并結(jié)合SpecAugment數(shù)據(jù)增強(qiáng)算法計(jì)算得到提取后的聲學(xué)特征張量;
步驟2,構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡(luò)模型,輸出結(jié)果為0或1,其中1代表語(yǔ)音信號(hào),0代表非語(yǔ)音信號(hào),并訓(xùn)練得到可用的語(yǔ)音激活檢測(cè)模型權(quán)重參數(shù);
步驟3,語(yǔ)音激活檢測(cè)模型在執(zhí)行預(yù)測(cè)時(shí),將步驟1所述得到的聲學(xué)特征張量作為輸入,得到預(yù)測(cè)輸出結(jié)果。
根據(jù)本發(fā)明,所述聲學(xué)特征提取的方法是:將一段聲音信號(hào)每400ms、800ms或2000ms片段切斷,將每個(gè)片段做聲學(xué)特征提取,先以10ms的時(shí)間步進(jìn)行分幀,每個(gè)幀長(zhǎng)為250ms,從起始時(shí)間點(diǎn)向后,逐幀處理,一次可處理的片段可選400ms、800ms或2000ms長(zhǎng)度,分別對(duì)應(yīng)不同長(zhǎng)度時(shí)延,以及神經(jīng)網(wǎng)絡(luò)的輸入維度大小;
對(duì)于每一幀的信號(hào),進(jìn)行快速傅里葉變換,取其對(duì)稱的張量的一半,并取模再取對(duì)數(shù),如果用于訓(xùn)練,則再通過(guò)SpecAugment進(jìn)行數(shù)據(jù)增強(qiáng),作為最終的聲學(xué)特征,預(yù)測(cè)時(shí)不做SpecAugment數(shù)據(jù)增強(qiáng)處理。
本發(fā)明的基于深度學(xué)習(xí)的流式語(yǔ)音激活檢測(cè)方法,對(duì)于算法模型的實(shí)時(shí)性、準(zhǔn)確率、魯棒性、和彈性伸縮性等,都具有良好的表現(xiàn),能夠?yàn)檎Z(yǔ)音通信、語(yǔ)音識(shí)別、智能問答、視頻會(huì)議實(shí)時(shí)字幕和實(shí)時(shí)翻譯等應(yīng)用場(chǎng)景提供關(guān)鍵技術(shù)支持,同時(shí)也可用于非實(shí)時(shí)性的場(chǎng)景,具有一舉兩得的效果。
附圖說(shuō)明
圖1為語(yǔ)音信號(hào)聲學(xué)特征提取算法流程圖;
圖2為支持流式語(yǔ)音激活檢測(cè)方法的模型基礎(chǔ)結(jié)構(gòu);
圖3為基于圖2所述基礎(chǔ)結(jié)構(gòu)的具體算法模型結(jié)構(gòu);
圖4為本發(fā)明的流式語(yǔ)音激活檢測(cè)算法的整體流程結(jié)構(gòu);
以下結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明。
具體實(shí)施方式
術(shù)語(yǔ)說(shuō)明:
VAD:全稱為英文Voice Activation Detection,中文譯為語(yǔ)音激活檢測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué)重慶集成電路創(chuàng)新研究院,未經(jīng)西安電子科技大學(xué)重慶集成電路創(chuàng)新研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210135633.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 實(shí)時(shí)解碼系統(tǒng)與實(shí)時(shí)解碼方法
- 實(shí)時(shí)穩(wěn)定
- 實(shí)時(shí)監(jiān)控裝置、實(shí)時(shí)監(jiān)控系統(tǒng)以及實(shí)時(shí)監(jiān)控方法
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)通信方法和實(shí)時(shí)通信系統(tǒng)
- 實(shí)時(shí)更新
- 實(shí)時(shí)內(nèi)核
- 用于通信網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備及相關(guān)方法
- 實(shí)時(shí)量化方法及實(shí)時(shí)量化系統(tǒng)





