[發(fā)明專利]一種環(huán)境對抗的魯棒語音鑒別方法有效
| 申請?zhí)枺?/td> | 202110841144.X | 申請日: | 2021-07-26 |
| 公開(公告)號: | CN113284486B | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計)人: | 易江燕;陶建華;傅睿博;田正坤 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/20 |
| 代理公司: | 北京華夏泰和知識產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 孫劍鋒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 環(huán)境 對抗 語音 鑒別方法 | ||
本發(fā)明提供一種環(huán)境對抗的魯棒語音鑒別方法,包括:采集語音鑒別模型訓(xùn)練數(shù)據(jù);提取所述訓(xùn)練數(shù)據(jù)中每個語音句子的訓(xùn)練聲學(xué)特征;將所述訓(xùn)練聲學(xué)特征輸入語音鑒別模型,所述語音鑒別模型包括:語音真假判別器和環(huán)境對抗判別器,聯(lián)合優(yōu)化語音鑒別模型的語音真假判別器和環(huán)境對抗判別器的損失函數(shù);得到訓(xùn)練后的語音鑒別模型;采集語音鑒別模型預(yù)測數(shù)據(jù);提取所述預(yù)測數(shù)據(jù)中每個語音句子的預(yù)測聲學(xué)特征;將所述預(yù)測聲學(xué)特征輸入訓(xùn)練后的去除環(huán)境對抗判別器的所述語音鑒別模型,輸出語音的判別結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及語音鑒別領(lǐng)域,具體涉及一種環(huán)境對抗的魯棒語音鑒別方法。
背景技術(shù)
隨著語音合成與轉(zhuǎn)換技術(shù)的日益成熟,該技術(shù)生成的語音已能達到欺騙人類或機器的程度,在智能導(dǎo)航、智能機器人、有聲閱讀、兒童手表、人機交互等領(lǐng)域有著廣泛的應(yīng)用。但是,不法分子的惡意利用卻帶來嚴(yán)重的危害,因此急需對生成語音進行鑒別。國內(nèi)外關(guān)于語音鑒別的技術(shù)已從特征參數(shù)選取和模型結(jié)構(gòu)設(shè)計兩個層面展開了一些有益的嘗試。
公開號CN112201258A公開了一種基于AMBP的噪聲魯棒性偽裝語音檢測方法,包括:S11.將含噪聲的語音轉(zhuǎn)換為語譜圖;S12.采用自適應(yīng)中位數(shù)二進制模式AMBP算法對語譜圖進行特征提取,得到語音的紋理特征向量;S13.利用得到的語音紋理特征向量訓(xùn)練支持向量機,得到語音分類模型,并利用語音分類模型對語音進行檢測分類,得到分類結(jié)果。
現(xiàn)有技術(shù)缺點:
現(xiàn)有語音鑒別技術(shù)主要聚焦于鑒別干凈語音的真假,這導(dǎo)致當(dāng)前鑒別模型魯棒性差,難以有效鑒別加噪或加背景音樂的語音的真假。噪聲或背景音樂會弱化生成語音的生成痕跡,因此相較于干凈語音,帶噪聲或背景音樂的生成語音更難鑒別。公開號CN112201258A提出了將帶噪語音轉(zhuǎn)為語譜圖提取特征,然后利用支持向量機進行鑒別,該方法很難學(xué)習(xí)到生成痕跡的鑒別性特征。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種環(huán)境對抗的魯棒語音鑒別方法,所述方法包括:
S1:采集語音鑒別模型訓(xùn)練數(shù)據(jù);
S2:提取所述訓(xùn)練數(shù)據(jù)中每個語音句子的訓(xùn)練聲學(xué)特征;
S3:將所述訓(xùn)練聲學(xué)特征輸入語音鑒別模型,所述語音鑒別模型包括:語音真假判別器和環(huán)境對抗判別器;
S4:聯(lián)合優(yōu)化語音鑒別模型的語音真假判別器和環(huán)境對抗判別器的損失函數(shù),得到訓(xùn)練后的語音鑒別模型;
S5:采集語音鑒別模型預(yù)測數(shù)據(jù);
S6:提取所述預(yù)測數(shù)據(jù)中每個語音句子的預(yù)測聲學(xué)特征;
S7:將所述預(yù)測聲學(xué)特征輸入訓(xùn)練后的去除環(huán)境對抗判別器的所述語音鑒別模型,輸出語音的判別結(jié)果。
優(yōu)選的,所述訓(xùn)練數(shù)據(jù)包括:干凈的真假音頻數(shù)據(jù)和加噪聲的真假音頻數(shù)據(jù)。
優(yōu)選的,所述聲學(xué)特征為常數(shù)Q譜系數(shù),即CQCC。
優(yōu)選的,所述語音鑒別模型還包括:共享隱層、語音真假判別器和環(huán)境對抗判別器;所述共享隱層分別與語音真假判別器和環(huán)境對抗判別器連接。
優(yōu)選的,所述將所述訓(xùn)練聲學(xué)特征輸入語音鑒別模型,包括:將所述訓(xùn)練聲學(xué)特征輸入所述共享隱層,所述共享隱層的輸出分別輸入語音鑒別模型的語音真假判別器和環(huán)境對抗判別器。
優(yōu)選的,所述共享隱層由八層殘差網(wǎng)絡(luò)隱層構(gòu)成,語音真假判別器由兩個自注意力網(wǎng)絡(luò)隱層和一個輸出層構(gòu)成,環(huán)境對抗判別器由兩個自注意力網(wǎng)絡(luò)隱層和一個輸出層構(gòu)成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110841144.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)





