[發(fā)明專利]一種融合分布對齊和對抗學(xué)習(xí)的無監(jiān)督跨域聲紋識別方法有效
| 申請?zhí)枺?/td> | 202110277452.4 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN112820301B | 公開(公告)日: | 2023-01-20 |
| 發(fā)明(設(shè)計(jì))人: | 趙慶衛(wèi);方策;王文超;張鵬遠(yuǎn);顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G06N3/04;G06N3/08 |
| 代理公司: | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 分布 對齊 對抗 學(xué)習(xí) 監(jiān)督 聲紋 識別 方法 | ||
1.一種融合分布對齊和對抗學(xué)習(xí)的無監(jiān)督跨域聲紋識別模型訓(xùn)練方法,其特征在于,包括以下步驟:
分別從源領(lǐng)域和目標(biāo)領(lǐng)域的語音中提取多維聲學(xué)特征;
將提取的多維聲學(xué)特征分別打上領(lǐng)域標(biāo)簽,其中源領(lǐng)域的數(shù)據(jù)有說話者標(biāo)簽,目標(biāo)領(lǐng)域的數(shù)據(jù)沒有說話者標(biāo)簽;
將提取的源領(lǐng)域和目標(biāo)領(lǐng)域的多維聲學(xué)特征作為訓(xùn)練數(shù)據(jù)依次送入神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練得到源領(lǐng)域的分類損失、源領(lǐng)域和目標(biāo)領(lǐng)域的對抗損失;根據(jù)領(lǐng)域分布對齊損失函數(shù)計(jì)算源領(lǐng)域和目標(biāo)領(lǐng)域的差異損失;最后根據(jù)目標(biāo)函數(shù)計(jì)算整個(gè)系統(tǒng)的損失函數(shù);
利用隨機(jī)梯度下降作為優(yōu)化器,進(jìn)行梯度計(jì)算,同時(shí)對損失函數(shù)計(jì)算出的梯度進(jìn)行反向傳播,更新參數(shù);
經(jīng)過多次迭代直至收斂,模型訓(xùn)練完成;
源領(lǐng)域的分類損失表達(dá)式為:
其中,LC是源領(lǐng)域分類任務(wù)的交叉熵(Cross Entropy)損失函數(shù),C代表多分類器;交叉熵?fù)p失函數(shù)的定義如下:
其中,輸入訓(xùn)練樣本為對應(yīng)的標(biāo)簽為K是分類的類別數(shù),指的是輸入到模型的源領(lǐng)域訓(xùn)練數(shù)據(jù)包含的說話者總數(shù),yi是真實(shí)標(biāo)簽,pi是模型輸出的預(yù)測值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)采用卷積神經(jīng)網(wǎng)絡(luò)為框架,所述卷積神經(jīng)網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的50層的ResNet,即ResNet-50;在訓(xùn)練的開始搭建初始化的ResNet-50。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,源領(lǐng)域和目標(biāo)領(lǐng)域的對抗損失表達(dá)式為:
其中,F(xiàn)s和Ft分別是源領(lǐng)域和目標(biāo)領(lǐng)域的特征提取器,D是可以區(qū)分特征來自源領(lǐng)域還是目標(biāo)領(lǐng)域的二分類器。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,定義源領(lǐng)域特征和目標(biāo)領(lǐng)域特征之間的相關(guān)對齊的損失函數(shù)為:
其中,Cs和Ct分別表示源領(lǐng)域數(shù)據(jù)特征和目標(biāo)領(lǐng)域數(shù)據(jù)特征的協(xié)方差矩陣,所述特征指的是從神經(jīng)網(wǎng)絡(luò)模型最后提取出的表征說話人身份的embedding向量,d表示特征的維度,表示矩陣的F-范數(shù),一個(gè)m行n列的矩陣M,它的F-范數(shù)的定義是:
而Cs和Ct的計(jì)算過程如下,其中Ns是訓(xùn)練過程中送入神經(jīng)網(wǎng)絡(luò)模型的每一批源領(lǐng)域數(shù)據(jù)的總數(shù),Nt是訓(xùn)練過程中送入神經(jīng)網(wǎng)絡(luò)模型每一批目標(biāo)領(lǐng)域數(shù)據(jù)的總數(shù):
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,目標(biāo)函數(shù)為:
其中,λ和σ分別是對抗損失函數(shù)和分布匹配損失的權(quán)重,是需要訓(xùn)練的超參數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多維聲學(xué)特征為64維聲學(xué)特征Fbank。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將提取的多維聲學(xué)特征分別打上領(lǐng)域標(biāo)簽步驟,包括:
對源領(lǐng)域和目標(biāo)領(lǐng)域分別打上領(lǐng)域標(biāo)簽,所述源領(lǐng)域的領(lǐng)域標(biāo)簽和所述目標(biāo)領(lǐng)域的領(lǐng)域標(biāo)簽通過不同的數(shù)字來表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277452.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強(qiáng)度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動(dòng)生成方法、裝置、存儲介質(zhì)和計(jì)算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)





