[發(fā)明專利]一種融合組合模型信息的語(yǔ)音鑒別模型壓縮方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110910114.X | 申請(qǐng)日: | 2021-08-09 |
| 公開(kāi)(公告)號(hào): | CN113362814B | 公開(kāi)(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計(jì))人: | 易江燕;陶建華;田正坤;傅睿博 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類(lèi)號(hào): | G10L15/06 | 分類(lèi)號(hào): | G10L15/06;G10L15/02;G10L15/16;G10L25/30;G10L25/51 |
| 代理公司: | 北京華夏泰和知識(shí)產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 孫劍鋒 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 組合 模型 信息 語(yǔ)音 鑒別 壓縮 方法 | ||
本發(fā)明提供一種融合組合模型信息的語(yǔ)音鑒別模型壓縮方法,包括:采集目標(biāo)模型的訓(xùn)練數(shù)據(jù);提取所述目標(biāo)模型的訓(xùn)練數(shù)據(jù)的聲學(xué)特征;從目標(biāo)模型的訓(xùn)練數(shù)據(jù)中提取樣本標(biāo)簽信息,作為硬標(biāo)簽信息;同時(shí)采用前向計(jì)算方法,得到組合模型的后驗(yàn)概率信息;將組合模型的后驗(yàn)概率信息與硬標(biāo)簽信息進(jìn)行線性插值,得到組合模型的監(jiān)督概率信息;利用組合模型的監(jiān)督概率信息輔助目標(biāo)模型進(jìn)行訓(xùn)練,通過(guò)最小化目標(biāo)模型和組合模型的概率分布距離,得到訓(xùn)練后的目標(biāo)模型。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音鑒別領(lǐng)域,具體涉及一種融合組合模型信息的語(yǔ)音鑒別模型壓縮方法。
背景技術(shù)
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,語(yǔ)音生成技術(shù)也日趨成熟,能生成與真人接近的語(yǔ)音,與之對(duì)應(yīng)的語(yǔ)音真假鑒別技術(shù)也受到關(guān)注和重視。目前,語(yǔ)音真假鑒別技術(shù)主要可以概括為兩類(lèi),一是從特征層進(jìn)行嘗試;二是從模型結(jié)構(gòu)層面進(jìn)行嘗試。其中,模型結(jié)構(gòu)層面的嘗試發(fā)展較快,組合模型的鑒別準(zhǔn)確率遠(yuǎn)高于單模型的鑒別準(zhǔn)確率。
公開(kāi)號(hào)為CN111564163A公開(kāi)了一種基于RNN的多種偽造操作語(yǔ)音檢測(cè)方法,包括如下步驟:1)獲取原始語(yǔ)音樣本,對(duì)所述原始語(yǔ)音樣本進(jìn)行M種偽造處理,得到M個(gè)偽造操作后的語(yǔ)音和1個(gè)未經(jīng)處理的原始語(yǔ)音,對(duì)上述語(yǔ)音進(jìn)行特征提取,得到訓(xùn)練語(yǔ)音樣本的LFCC矩陣,送入RNN分類(lèi)器網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到一個(gè)多分類(lèi)的訓(xùn)練模型;2)得到一段測(cè)試語(yǔ)音,對(duì)該測(cè)試語(yǔ)音進(jìn)行特征提取,得到測(cè)試語(yǔ)音數(shù)據(jù)的LFCC矩陣,送入由步驟1)訓(xùn)練好的RNN分類(lèi)器中進(jìn)行分類(lèi),每一個(gè)測(cè)試語(yǔ)音得到一個(gè)輸出概率,合并所有輸出概率作為最后的預(yù)測(cè)結(jié)果:如果預(yù)測(cè)結(jié)果是原始語(yǔ)音,則測(cè)試語(yǔ)音被識(shí)別為原始語(yǔ)音;如果預(yù)測(cè)結(jié)果是經(jīng)過(guò)某一偽造操作的語(yǔ)音,則測(cè)試語(yǔ)音被識(shí)別為進(jìn)行相應(yīng)偽造操作的偽造語(yǔ)音。
公開(kāi)號(hào)為CN112712809B一種語(yǔ)音檢測(cè)方法,從待檢測(cè)語(yǔ)音中提取出多個(gè)語(yǔ)音特征信息;將語(yǔ)音特征信息分別輸入至預(yù)先訓(xùn)練好的多個(gè)語(yǔ)音來(lái)源模型中,確定待檢測(cè)語(yǔ)音與每個(gè)語(yǔ)音來(lái)源模型的來(lái)源類(lèi)型之間的第一匹配度;針對(duì)于每個(gè)語(yǔ)音類(lèi)別模型,基于確定出的第一匹配度,確定待檢測(cè)語(yǔ)音與該語(yǔ)音類(lèi)別模型對(duì)應(yīng)的類(lèi)別類(lèi)型之間的第二匹配度;基于確定出的多個(gè)第一匹配度和多個(gè)第二匹配度,確定待檢測(cè)語(yǔ)音的類(lèi)別類(lèi)型和來(lái)源類(lèi)型。這樣,本申請(qǐng)通過(guò)采用語(yǔ)音類(lèi)別模型以及語(yǔ)音類(lèi)別模型下的語(yǔ)音來(lái)源模型進(jìn)行語(yǔ)音檢測(cè),完成了語(yǔ)音真假和語(yǔ)音來(lái)源的檢測(cè)。
現(xiàn)有技術(shù)缺點(diǎn):
但是組合模型的不足也很明顯,即組合模型體積較大、計(jì)算速度慢。現(xiàn)實(shí)生活中待鑒別的語(yǔ)音數(shù)據(jù)是海量的,組合模型的計(jì)算速度較慢,難以滿足實(shí)用的需求。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明第一方面提供一種融合組合模型信息的語(yǔ)音鑒別模型壓縮方法,包括:
組合模型的訓(xùn)練流程:
S1:采集組合模型的訓(xùn)練數(shù)據(jù);
S2:提取所述組合模型的訓(xùn)練數(shù)據(jù)的聲學(xué)特征;
S3:應(yīng)用所述組合模型的訓(xùn)練數(shù)據(jù)的聲學(xué)特征訓(xùn)練多個(gè)單模型;
S4:采用線性回歸進(jìn)行學(xué)習(xí)組合模型中各個(gè)單模型的最優(yōu)權(quán)重系數(shù)
目標(biāo)模型的壓縮:
S5:采集目標(biāo)模型的訓(xùn)練數(shù)據(jù);
S6:提取所述目標(biāo)模型的訓(xùn)練數(shù)據(jù)的聲學(xué)特征;
S7:從目標(biāo)模型的訓(xùn)練數(shù)據(jù)中提取樣本標(biāo)簽信息,作為硬標(biāo)簽信息;同時(shí)采用前向計(jì)算方法,從組合模型中計(jì)算后驗(yàn)概率信息;
S8:將所述硬標(biāo)簽信息與后驗(yàn)概率信息進(jìn)行線性插值,得到組合模型的監(jiān)督概率信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110910114.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





