[發(fā)明專利]一種基于特征融合和注意力機(jī)制的發(fā)音反演方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010467540.6 | 申請(qǐng)日: | 2020-05-28 |
| 公開(公告)號(hào): | CN111680591B | 公開(公告)日: | 2023-01-13 |
| 發(fā)明(設(shè)計(jì))人: | 喻梅;王善宇;王建榮;徐天一;趙滿坤;高潔;劉志強(qiáng) | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G10L25/24 | 分類號(hào): | G10L25/24;G06V10/82;G06V40/70;G06V10/44;G06N3/04 |
| 代理公司: | 天津盛理知識(shí)產(chǎn)權(quán)代理有限公司 12209 | 代理人: | 霍慧慧 |
| 地址: | 300071*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 融合 注意力 機(jī)制 發(fā)音 反演 方法 | ||
1.一種基于特征融合和注意力機(jī)制的發(fā)音反演方法,其特征在于:所述方法的步驟為:
1)對(duì)數(shù)據(jù)中的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;所述步驟1)對(duì)語(yǔ)音進(jìn)行了靜音段去除,以及梅爾倒譜系數(shù)MFCC提取算法進(jìn)行特征提取,得到能夠表征語(yǔ)音的39維特征向量,具體操作為:使用語(yǔ)WebRTC項(xiàng)目中的VAD,采用高斯混合模型GMM計(jì)算語(yǔ)音中的分布概率;MFCC特征提取的具體流程為:預(yù)加重、分幀、加窗、短時(shí)傅里葉變換、梅爾濾波、對(duì)數(shù)與離散余弦運(yùn)算;
步驟S0101:語(yǔ)音靜音段消除處理,使用WebRTC的VAD方法,首先設(shè)定WebRTC的相關(guān)系數(shù):其中激進(jìn)程度系數(shù)設(shè)為Normal、數(shù)據(jù)幀長(zhǎng)系數(shù)選擇10ms、支持頻率選擇16kHz;之后通過(guò)WebRtcVad_CalculateFeatures()函數(shù)就算子帶能量,并根據(jù)公式(1)所示的高斯概率模型計(jì)算靜音和語(yǔ)音的頻率:
得到了噪聲和語(yǔ)音的六個(gè)特征后,根據(jù)公式(2)計(jì)算每個(gè)特征的二元高斯對(duì)數(shù),以及公式(3)計(jì)算加權(quán)對(duì)數(shù)似然比:
最后,進(jìn)行暫時(shí)的判斷,首先根據(jù)局部似然對(duì)數(shù)比的結(jié)果判斷每一個(gè)子帶,當(dāng)某一個(gè)子帶的的局部似然對(duì)數(shù)比超過(guò)指定的閾值,認(rèn)為該幀為語(yǔ)音;若所有子帶判斷結(jié)果均為非語(yǔ)音,則會(huì)再進(jìn)行全局判斷;全局判斷與局部判斷相似,均是閾值判別;整個(gè)的判別過(guò)程如公式(4)所示:
步驟S0102:對(duì)干凈的語(yǔ)音數(shù)據(jù)進(jìn)行階數(shù)為13的MFCC特征提取過(guò)程,并將一階與二階差分共同保留作為特征,最終的MFCC特征為39維;
2)將數(shù)據(jù)中的EMA數(shù)據(jù)進(jìn)行預(yù)處理;
對(duì)于一般的EMA類型數(shù)據(jù),按照數(shù)據(jù)文件中的EST頭部信息獲取到需要的器官點(diǎn)位的數(shù)據(jù)位置,其中舌尖、舌苔、舌背三個(gè)舌部位置參數(shù)作為指導(dǎo)反演模塊訓(xùn)練的目標(biāo)軌跡,上唇、下唇、下巴三個(gè)外部位置參數(shù)作為輔助特征;之后,進(jìn)行標(biāo)準(zhǔn)化操作,計(jì)算每一個(gè)通道的均值和標(biāo)準(zhǔn)差,之后將原數(shù)據(jù)減去均值并處以四倍的標(biāo)準(zhǔn)差,如公式(5)所示:
3)通過(guò)訓(xùn)練提取器網(wǎng)絡(luò),預(yù)測(cè)EMA數(shù)據(jù)中除舌位的其他三個(gè)位置參數(shù)作為輔助特征;通過(guò)將語(yǔ)音MFCC特征輸入提取器網(wǎng)絡(luò),并以EMA數(shù)據(jù)中6個(gè)維度的非舌頭點(diǎn)位數(shù)據(jù)作為網(wǎng)絡(luò)輸出指導(dǎo),訓(xùn)練網(wǎng)絡(luò)的性能,使其能夠從語(yǔ)音數(shù)據(jù)中較準(zhǔn)確地提取到本發(fā)明所提出的發(fā)音輔助特征;
網(wǎng)絡(luò)模型的輸入為對(duì)語(yǔ)音進(jìn)行特征提取后的向量特征,輸出為輔助特征,輔助特征為數(shù)據(jù)集中EMA數(shù)據(jù)除舌位的其他部位,在本文使用的數(shù)據(jù)集中具體是指上唇、下唇、下巴三個(gè)位置,提取器可以理解為是一個(gè)進(jìn)行除舌位以外其他發(fā)音器官反演的預(yù)測(cè)器,該問(wèn)題是典型的seq2seq的問(wèn)題模型,因此使用時(shí)序網(wǎng)絡(luò)DBLSTM實(shí)現(xiàn);
經(jīng)過(guò)上兩步驟處理后的語(yǔ)音特征和輔助特征作為訓(xùn)練數(shù)據(jù),從語(yǔ)音特征集和輔助特征集進(jìn)行成對(duì)的采樣,保持訓(xùn)練過(guò)程中的語(yǔ)音特征和非舌部運(yùn)動(dòng)數(shù)據(jù)的一致性;之后以最小化損失函數(shù)為目的進(jìn)行每一輪的訓(xùn)練,訓(xùn)練之后得到的網(wǎng)絡(luò)具有一定的非舌部器官運(yùn)動(dòng)反演能力,可作為本發(fā)明中輔助特征的提取器;損失函數(shù)如公式(6)所示:
其中si為訓(xùn)練集中的輔助特征,fsi為提取器的網(wǎng)絡(luò)輸出;
4)通過(guò)特征融合的方法提高M(jìn)FCC特征與輔助特征之間的相關(guān)性,拼接后形成新的特征向量;通過(guò)在發(fā)音反演模型中增加特征融合模塊,將語(yǔ)音和輔助特征各自經(jīng)過(guò)全連接層,獲得兩種維度相同的新特征對(duì);并以新特征對(duì)之間的相關(guān)性系數(shù)為目標(biāo)函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,最后將兩種特征拼接,合并成發(fā)音反演特征;
分別使用兩個(gè)多層全連接層將39維的語(yǔ)音特征與6維的輔助特征轉(zhuǎn)換為維度為20的新特征,最后將兩個(gè)20位的新特征拼接成40位的組合特征;在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),以增強(qiáng)新特征之間的相關(guān)性為目標(biāo)進(jìn)行參數(shù)調(diào)整,使用公式(7)所示的皮爾遜相關(guān)系數(shù):
公式(7)中X表示語(yǔ)音特征經(jīng)過(guò)全連接層后的輸出特征向量,Y表示輔助特征經(jīng)過(guò)全連接層后的輸出特征向量;i表示特征的第i個(gè)維度,n表示總維度;由于網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是使得特征之間的正相關(guān)性增大,因此在整體損失求平均值后再求相反數(shù);
5)以帶注意力機(jī)制的編碼器解碼器形式訓(xùn)練發(fā)音反演框架,增強(qiáng)上下文關(guān)聯(lián)的影響;通過(guò)編碼器通過(guò)LSTM網(wǎng)絡(luò)將步驟4)得到的發(fā)音反演特征編碼成中間向量;之后在解碼器中先計(jì)算每一時(shí)刻的注意力權(quán)重值,并將權(quán)重與中間向量相乘增強(qiáng)上下文相關(guān)性,然后再通過(guò)LSTM與全連接層預(yù)測(cè)到舌位運(yùn)動(dòng)軌跡;通過(guò)求出舌位軌跡的預(yù)測(cè)值與真實(shí)值之間的誤差與相關(guān)系數(shù),衡量本發(fā)明的準(zhǔn)確程度;
發(fā)音反演通過(guò)編碼器和解碼器兩個(gè)部分組成,對(duì)于特征處理輸出的40維組合特征,首先通過(guò)單層的雙向LSTM網(wǎng)絡(luò),輸出每個(gè)時(shí)刻的網(wǎng)絡(luò)輸出結(jié)果以及最后一個(gè)時(shí)刻的隱藏層狀態(tài),之后進(jìn)入解碼階段;解碼器中的注意力層位于雙向LSTM的計(jì)算之前,注意力機(jī)制對(duì)編碼器的結(jié)果進(jìn)行上下文關(guān)注度計(jì)算,為每個(gè)時(shí)刻求得應(yīng)在整個(gè)序列上的關(guān)注度分配;最終再經(jīng)過(guò)單層的雙向LSTM和全連接層輸出舌位反演結(jié)果;
使用發(fā)音反演常用的均方根誤差(Root Mean Square Error,RMSE)和相關(guān)系數(shù)(Correlation Coefficient,CC)兩種性能指標(biāo),通過(guò)在實(shí)驗(yàn)中檢查不同模型在各個(gè)器官位置的反演效果;
均方根誤差表示了預(yù)測(cè)值與真實(shí)值之間的差異,計(jì)算如式(8)所示,其中i指第i個(gè)器官點(diǎn)位,T為該段語(yǔ)音的總幀數(shù),s和s’分別為網(wǎng)絡(luò)輸出和真實(shí)位置,該指標(biāo)數(shù)值越小,表示預(yù)測(cè)越準(zhǔn)確;
相關(guān)系數(shù)的計(jì)算如式(9)所示,
它表示了預(yù)測(cè)軌跡和真實(shí)軌跡之間的相關(guān)程度,當(dāng)模型能夠預(yù)測(cè)較真實(shí)軌跡時(shí),相關(guān)系數(shù)越大。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010467540.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





