[發(fā)明專(zhuān)利]一種基于特征融合和注意力機(jī)制的發(fā)音反演方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010467540.6 | 申請(qǐng)日: | 2020-05-28 |
| 公開(kāi)(公告)號(hào): | CN111680591B | 公開(kāi)(公告)日: | 2023-01-13 |
| 發(fā)明(設(shè)計(jì))人: | 喻梅;王善宇;王建榮;徐天一;趙滿(mǎn)坤;高潔;劉志強(qiáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 天津大學(xué) |
| 主分類(lèi)號(hào): | G10L25/24 | 分類(lèi)號(hào): | G10L25/24;G06V10/82;G06V40/70;G06V10/44;G06N3/04 |
| 代理公司: | 天津盛理知識(shí)產(chǎn)權(quán)代理有限公司 12209 | 代理人: | 霍慧慧 |
| 地址: | 300071*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 融合 注意力 機(jī)制 發(fā)音 反演 方法 | ||
本發(fā)明涉及一種基于特征融合和注意力機(jī)制的發(fā)音反演方法,提出并定義了一種發(fā)音反演中的輔助特征,在傳統(tǒng)的語(yǔ)音特征基礎(chǔ)上增加了新的預(yù)測(cè)源;同時(shí)使用了特征融合的手段以保持語(yǔ)音特征與輔助特征兩者的關(guān)聯(lián)程度,最終在基于注意力機(jī)制的編碼解碼器結(jié)構(gòu)上獲得了反演性能的有效提升;能夠彌補(bǔ)預(yù)測(cè)輔助特征所帶來(lái)的誤差影響,在只以語(yǔ)音特征為網(wǎng)絡(luò)輸入的情況下,得到佳的反演性能。
技術(shù)領(lǐng)域
本發(fā)明屬于深度學(xué)習(xí)、特征工程和語(yǔ)音信號(hào)處理領(lǐng)域,涉及到針對(duì)發(fā)音反演的輔助特征提取技術(shù)、多特征深度融合技術(shù),特別涉及一種基于特征融合和注意力機(jī)制的發(fā)音反演方法。
背景技術(shù)
目標(biāo)檢測(cè)是機(jī)器視覺(jué)和圖像處理領(lǐng)域的重要研究方向,并且在機(jī)械控制、人機(jī)交互等方面有廣泛的應(yīng)用。而隨著空間技術(shù)的發(fā)展和成像設(shè)備的不斷進(jìn)步,高清衛(wèi)星成為了分析土地使用情況、地面目標(biāo)檢測(cè)等任務(wù)的利器,計(jì)算機(jī)處理技術(shù)也已經(jīng)越來(lái)越多地應(yīng)用于遙感圖像處理之中。在光學(xué)圖像轉(zhuǎn)換為數(shù)字圖像之后,或通過(guò)遙感傳感器直接獲得數(shù)字遙感圖像之后,就可以利用計(jì)算機(jī)對(duì)遙感圖像數(shù)據(jù)進(jìn)行處理,這種處理技術(shù)稱(chēng)為遙感圖像數(shù)字處理方法,遙感圖像目標(biāo)檢測(cè)與識(shí)別是衛(wèi)星遙感圖像處理領(lǐng)域中最基礎(chǔ)的任務(wù)。
近年來(lái),深度學(xué)習(xí)不僅在機(jī)器視覺(jué)領(lǐng)域取得了優(yōu)秀的成績(jī),基于深度學(xué)習(xí)的目標(biāo)探測(cè)與識(shí)別算法也因此成為人工智能領(lǐng)域備受矚目的研究?jī)?nèi)容之一,具有共享權(quán)值、位移旋轉(zhuǎn)不變性的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)包含了高層語(yǔ)義特征,在圖像分類(lèi)及目標(biāo)檢測(cè)項(xiàng)目中均取得很好的效果,對(duì)于提高遙感圖像目標(biāo)檢測(cè)的準(zhǔn)確率與對(duì)象識(shí)別正確率有很大的幫助。
Faster R-CNN首先將原始圖像輸入到卷積神經(jīng)網(wǎng)絡(luò),提取出特征圖,卷積網(wǎng)絡(luò)的輸出特征圖被當(dāng)作候選區(qū)域網(wǎng)絡(luò)(Region Proposal Networks,RPN)的輸入項(xiàng),選取出符合目標(biāo)特征信息的候選邊框,最后對(duì)提取出的特征進(jìn)行判別分類(lèi),使用回歸器得到更精準(zhǔn)位置。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于特征融合和注意力機(jī)制的發(fā)音反演方法,能夠解決現(xiàn)存方法中在只使用一種特征時(shí)造成的性能瓶頸。
本發(fā)明解決其技術(shù)問(wèn)題是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
一種基于特征融合和注意力機(jī)制的發(fā)音反演方法,其特征在于:所述方法的步驟為:
1)對(duì)數(shù)據(jù)中的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;
2)將數(shù)據(jù)中的EMA數(shù)據(jù)進(jìn)行預(yù)處理;
3)通過(guò)訓(xùn)練提取器網(wǎng)絡(luò),預(yù)測(cè)EMA數(shù)據(jù)中除舌位的其他三個(gè)位置參數(shù)作為輔助特征;
4)通過(guò)特征融合的方法提高M(jìn)FCC特征與輔助特征之間的相關(guān)性,拼接后形成新的特征向量;
5)以帶注意力機(jī)制的編碼器解碼器形式訓(xùn)練發(fā)音反演框架,增強(qiáng)上下文關(guān)聯(lián)的影響。
而且,所述步驟1)對(duì)語(yǔ)音進(jìn)行了靜音段去除,以及梅爾倒譜系數(shù)(Mel-scaleFrequency Cepstral Coefficients,MFCC)提取算法進(jìn)行特征提取,得到能夠表征語(yǔ)音的39維特征向量,具體操作為:使用語(yǔ)WebRTC項(xiàng)目中的VAD,采用高斯混合模型(GaussianMixture Mode,GMM)計(jì)算語(yǔ)音中的分布概率;MFCC特征提取的具體流程為:預(yù)加重、分幀、加窗、短時(shí)傅里葉變換、梅爾濾波、對(duì)數(shù)與離散余弦運(yùn)算。
而且,所述步驟3)的具體操作為:通過(guò)將語(yǔ)音MFCC特征輸入提取器網(wǎng)絡(luò),并以EMA數(shù)據(jù)中6個(gè)維度的非舌頭點(diǎn)位數(shù)據(jù)作為網(wǎng)絡(luò)輸出指導(dǎo),訓(xùn)練網(wǎng)絡(luò)的性能,使其能夠從語(yǔ)音數(shù)據(jù)中較準(zhǔn)確地提取到本發(fā)明所提出的發(fā)音輔助特征。
而且,所述步驟4)的具體操作為:通過(guò)在發(fā)音反演模型中增加特征融合模塊,將語(yǔ)音和輔助特征各自經(jīng)過(guò)全連接層,獲得兩種維度相同的新特征對(duì);并以新特征對(duì)之間的相關(guān)性系數(shù)為目標(biāo)函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,最后將兩種特征拼接,合并成發(fā)音反演特征。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010467540.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶(hù)注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





