[發(fā)明專利]一種融合分布對齊和對抗學(xué)習(xí)的無監(jiān)督跨域聲紋識別方法有效
| 申請?zhí)枺?/td> | 202110277452.4 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN112820301B | 公開(公告)日: | 2023-01-20 |
| 發(fā)明(設(shè)計)人: | 趙慶衛(wèi);方策;王文超;張鵬遠(yuǎn);顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G06N3/04;G06N3/08 |
| 代理公司: | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 分布 對齊 對抗 學(xué)習(xí) 監(jiān)督 聲紋 識別 方法 | ||
本發(fā)明公開了一種融合分布對齊和對抗學(xué)習(xí)的無監(jiān)督跨域聲紋識別方法,該方法包括以下步驟:分別從源領(lǐng)域和目標(biāo)領(lǐng)域的語音中提取多維聲學(xué)特征;將提取的多維聲學(xué)特征分別打上領(lǐng)域標(biāo)簽;將提取的源領(lǐng)域和目標(biāo)領(lǐng)域的多維聲學(xué)特征作為訓(xùn)練數(shù)據(jù)送入網(wǎng)絡(luò),訓(xùn)練得到源領(lǐng)域的分類損失、源領(lǐng)域和目標(biāo)領(lǐng)域的對抗損失;根據(jù)領(lǐng)域分布對齊損失函數(shù)計算源領(lǐng)域和目標(biāo)領(lǐng)域的差異損失;根據(jù)目標(biāo)函數(shù)計算整個系統(tǒng)的損失函數(shù);利用隨機梯度下降作為優(yōu)化器,進(jìn)行梯度計算,同時對損失函數(shù)計算出的梯度進(jìn)行反向傳播,更新參數(shù);經(jīng)過多次迭代直至收斂,模型訓(xùn)練完成。本發(fā)明可以在目標(biāo)領(lǐng)域缺少說話者數(shù)據(jù)標(biāo)簽的情況下更好的訓(xùn)練模型,進(jìn)而可以提升跨領(lǐng)域聲紋識別的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及跨域聲紋識別技術(shù),尤其涉及一種融合分布對齊和對抗學(xué)習(xí)的無監(jiān)督跨域聲紋識別方法。
背景技術(shù)
通過深度學(xué)習(xí)的建模方法從語音中提取深度聲紋鑒別性特征,成為該領(lǐng)域主流的研究熱點。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)具有強大的建模能力,以及針對各場景提出的損失函數(shù),展現(xiàn)出相對于傳統(tǒng)技術(shù)的明顯優(yōu)勢。其中的聲紋特征是一段固定長度、蘊含聲紋鑒別性信息的向量,然而這種深度特征仍然對領(lǐng)域的變化十分敏感。
在實際應(yīng)用中,訓(xùn)練好的模型在新的領(lǐng)域使用時,大量干擾因素使得目標(biāo)領(lǐng)域和源領(lǐng)域數(shù)據(jù)分布存在差異,比如語音錄制的設(shè)備不同,環(huán)境的背景噪聲情況不同,語言種類不同,甚至說話人到同一錄制設(shè)備的距離不同,都會最終影響識別的準(zhǔn)確率。
基于對抗學(xué)習(xí)(Adversarial Learning)的領(lǐng)域自適應(yīng)(Domain Adaptation)技術(shù),在降低領(lǐng)域偏移(domain shift)上卓有成效。對抗領(lǐng)域自適應(yīng)技術(shù)與早年的生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)類似,利用一個特征提取網(wǎng)絡(luò)來獲取深度特征,同時采用一個域分類網(wǎng)絡(luò)來區(qū)分輸入的訓(xùn)練樣本是來自源領(lǐng)域還是目標(biāo)領(lǐng)域。這種區(qū)分的目的是讓網(wǎng)絡(luò)最終無法分辨源領(lǐng)域和目標(biāo)領(lǐng)域,從而認(rèn)為提取到的深度特征中,領(lǐng)域信息的差異減小,或者領(lǐng)域的信息被削弱。通過梯度反轉(zhuǎn)層(Gradient Reversal Layer,GRL)的引入,這種域?qū)褂?xùn)練的方法得到了較好的實現(xiàn)。
上述方法一般需要建立在目標(biāo)領(lǐng)域的訓(xùn)練數(shù)據(jù)同樣有說話人標(biāo)簽的基礎(chǔ)上,也就是有監(jiān)督訓(xùn)練。而在科研或?qū)嶋H應(yīng)用中,采集足夠的有說話人標(biāo)簽的語音數(shù)據(jù)往往需要消耗大量人力或成本,可行性不高。
采用分布匹配(Distribution matching)理論的領(lǐng)域自適應(yīng)方法同樣也被用來減小領(lǐng)域偏移,最大均值差異(Maximum Mean Discrepancy,MMD)和相關(guān)對齊法(CorrelationAlignment,CORAL)是最常用的兩個域之間分布差異的度量方式。此外,目前大多深度領(lǐng)域自適應(yīng)技術(shù)都聚焦在源領(lǐng)域和目標(biāo)領(lǐng)域間的全局偏移,而沒有考慮兩個領(lǐng)域都有的子領(lǐng)域之間的關(guān)系(子領(lǐng)域是指兩個領(lǐng)域里都有的同一目標(biāo)類)。這樣經(jīng)過全局的領(lǐng)域自適應(yīng)之后,源領(lǐng)域和目標(biāo)領(lǐng)域的整體分布可能趨向相似,但各自領(lǐng)域內(nèi)部子領(lǐng)域之間的數(shù)據(jù)可能會因距離太近而無法區(qū)分。研究者在圖像分類任務(wù)中引入了局部最大均值差異(LocalMaximum Mean Discrepancy,LMMD)來解決此類問題。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)由于多變的感受野,能夠有強大的多尺度特征表達(dá)能力。以CNN為主干,發(fā)展出大量網(wǎng)絡(luò)模型,AlexNet通過卷積層的堆疊和使用更大的卷積核,在計算機視覺領(lǐng)域取得過突破性的成績,但局限于層數(shù)和卷積核的大小,感受野有限。VGGNet使用更深的網(wǎng)絡(luò)深度和更小的卷積核,獲得了更好的識別效果,表明增加網(wǎng)絡(luò)層數(shù)比增大卷積核能夠效率更高的增大感受野,從而學(xué)習(xí)到更大尺度的特征表達(dá)。但過多的網(wǎng)絡(luò)層數(shù)容易造成訓(xùn)練過程中的梯度退化問題。
2015年何愷明提出的殘差網(wǎng)絡(luò)(ResNet)對CNN做了較大創(chuàng)新,不再簡單的堆積網(wǎng)絡(luò)層數(shù),而是增加一個恒等映射結(jié)構(gòu),解決了困擾已久的深度學(xué)習(xí)中網(wǎng)絡(luò)退化問題,成為目前最為流行的CNN網(wǎng)絡(luò)結(jié)構(gòu)之一。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277452.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)





