[發(fā)明專利]一種基于特征剪裁和平移的語音識(shí)別數(shù)據(jù)增強(qiáng)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111344696.6 | 申請(qǐng)日: | 2021-11-15 |
| 公開(公告)號(hào): | CN114171012A | 公開(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計(jì))人: | 郭宇航;程浩東;陳朔鷹;吳麗婷 | 申請(qǐng)(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L25/03 |
| 代理公司: | 北京正陽理工知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11639 | 代理人: | 王松 |
| 地址: | 100081 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 剪裁 平移 語音 識(shí)別 數(shù)據(jù) 增強(qiáng) 方法 | ||
本發(fā)明涉及一種基于特征剪裁和平移的語音識(shí)別數(shù)據(jù)增強(qiáng)方法,屬于語音識(shí)別處理技術(shù)領(lǐng)域。本方法分別在時(shí)間維度和頻率維度上,對(duì)音頻信號(hào)特征進(jìn)行剪裁和平移。其中,在時(shí)間維度上,隨機(jī)選取某一時(shí)間段的特征值,裁剪該時(shí)間段的特征,然后將未被裁剪的特征值沿時(shí)間維度方向平移;在頻率維度方向,隨機(jī)選取某一頻率段的特征值,然后裁剪該頻率段的特征,將未被裁剪的特征值沿著頻率方向平移。本方法無需再重新生成音頻信號(hào),也無需再提取特征,避免了存儲(chǔ)空間與運(yùn)行時(shí)間的浪費(fèi),比現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)的數(shù)據(jù)增強(qiáng)效果更好,有效提升了語音識(shí)別效果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于特征剪裁和平移的語音識(shí)別數(shù)據(jù)增強(qiáng)方法,屬于語音識(shí)別處理技術(shù)領(lǐng)域。
技術(shù)背景
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,計(jì)算機(jī)技術(shù)被運(yùn)用到社會(huì)的各個(gè)領(lǐng)域,同時(shí),產(chǎn)生了海量語音數(shù)據(jù)處理困難以及人機(jī)交互困難。語音識(shí)別的目標(biāo),是將人類說話內(nèi)容通過計(jì)算機(jī)自動(dòng)轉(zhuǎn)化為文本。隨著人工智能和深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展,語音識(shí)別技術(shù)取得了重大進(jìn)展。
語音識(shí)別面臨的主要困難是訓(xùn)練語料不充足、多樣性缺乏,導(dǎo)致識(shí)別模型過擬合,泛化能力差。這極大限制了語音識(shí)別技術(shù)的發(fā)展。目前,常用的解決辦法有Dropout、L1、L2正則、Batch Normalization、遷移學(xué)習(xí)、預(yù)訓(xùn)練,等等。
但是,這些方法都是從識(shí)別模型入手,試圖從泛化能力更強(qiáng)的模型族里找到一個(gè)對(duì)訓(xùn)練數(shù)據(jù)擬合最好的模型。然而,數(shù)據(jù)增強(qiáng)是從數(shù)據(jù)出發(fā),從已有的數(shù)據(jù)中根據(jù)先驗(yàn)知識(shí)生成偽數(shù)據(jù),以此增加數(shù)據(jù)的多樣性,從而達(dá)到增強(qiáng)模型泛化能力,防止模型過擬合的目的。
現(xiàn)有的語音數(shù)據(jù)增強(qiáng)方法絕大部分都集中于音頻信號(hào)端。例如噪聲添加,其原理是在原始音頻信號(hào)上加入環(huán)境噪聲,從而生成新的音頻信號(hào)。但是,這類語音數(shù)據(jù)增強(qiáng)方法,不僅需要空間來存儲(chǔ)新生成的音頻,而且需要更多時(shí)間來對(duì)新生成的音頻進(jìn)行特征提取。此外,還有一些在線語音數(shù)據(jù)增強(qiáng)方法,如Daniel S.Park等人提出的SpecAugment,其原理是通過對(duì)特征端添加隨機(jī)遮蓋來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的目的,但是,SpecAugment對(duì)數(shù)據(jù)的擾動(dòng)程度強(qiáng)度不理想,不能最大程度的增強(qiáng)數(shù)據(jù)。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服現(xiàn)有技術(shù)存在的不足,為解決語音識(shí)別技術(shù)中語音數(shù)據(jù)集數(shù)據(jù)量不足、多樣性缺乏,且傳統(tǒng)數(shù)據(jù)增強(qiáng)易造成數(shù)據(jù)集過大等技術(shù)問題,創(chuàng)造性地提出一種基于特征剪裁和平移的語音識(shí)別數(shù)據(jù)增強(qiáng)方法。
本發(fā)明的創(chuàng)新點(diǎn)在于:分別在時(shí)間維度和頻率維度上,對(duì)音頻信號(hào)特征進(jìn)行剪裁和平移。其中,在時(shí)間維度上,隨機(jī)選取某一時(shí)間段的特征值,裁剪該時(shí)間段的特征,然后將未被裁剪的特征值沿時(shí)間維度方向平移;在頻率維度方向,隨機(jī)選取某一頻率段的特征值,然后裁剪該頻率段的特征,將未被裁剪的特征值沿著頻率方向平移。
為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
一種基于特征剪裁和平移的語音識(shí)別數(shù)據(jù)增強(qiáng)方法,對(duì)音頻信號(hào)的特征值進(jìn)行操作。
首先,對(duì)輸入的語音片段,將其音頻信號(hào)的波形文件輸入到系統(tǒng)模型中進(jìn)行特征提取,得到音頻信號(hào)的特征矩陣F(如梅爾頻譜特征矩陣),該二維矩陣即為特征值。
其中,特征提取方法可以采用MFCC((Mel-Frequency Cepstral Coefficients)方法,或者其它音頻特征提取方法。
然后,根據(jù)隨機(jī)選取裁剪時(shí)間段的長(zhǎng)度的上限,采樣得到隨機(jī)選取裁剪時(shí)間段的起點(diǎn)和長(zhǎng)度;根據(jù)隨機(jī)選取裁剪頻率段的長(zhǎng)度上限,采樣得到隨機(jī)選取裁剪頻率段的起點(diǎn)和長(zhǎng)度。
之后,根據(jù)隨機(jī)選取裁剪時(shí)間段的起點(diǎn)和長(zhǎng)度,生成時(shí)間裁剪平移矩陣L;根據(jù)隨機(jī)選取裁剪頻率段的起點(diǎn)和長(zhǎng)度,生成頻率裁剪平移矩陣R。
隨后,使用時(shí)間裁剪平移矩陣L、頻率裁剪平移矩陣R,對(duì)特征矩陣F做矩陣變換,得到新的音頻信號(hào)特征
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111344696.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種用于建筑的振震雙控的隔振裝置及安裝方式
- 下一篇:一種貼膜治具





