[發(fā)明專利]說(shuō)話人信息提取模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202010542435.4 | 申請(qǐng)日: | 2020-06-15 |
| 公開(kāi)(公告)號(hào): | CN111429923B | 公開(kāi)(公告)日: | 2020-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 徐泓洋;太榮鵬;溫平 | 申請(qǐng)(專利權(quán))人: | 深圳市友杰智新科技有限公司 |
| 主分類號(hào): | G10L17/04 | 分類號(hào): | G10L17/04;G10L17/02;G10L17/18;G10L15/26;G10L13/04 |
| 代理公司: | 深圳市明日今典知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝 |
| 地址: | 518000 廣東省深圳市南山區(qū)招商*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 說(shuō)話 信息 提取 模型 訓(xùn)練 方法 裝置 計(jì)算機(jī) 設(shè)備 | ||
1.一種說(shuō)話人信息提取模型的訓(xùn)練方法,其特征在于,包括:
將語(yǔ)音合成系統(tǒng)與語(yǔ)音識(shí)別系統(tǒng),通過(guò)所述說(shuō)話人信息提取模型關(guān)聯(lián)為訓(xùn)練體系,其中,所述語(yǔ)音合成系統(tǒng)包括依次連接的文本處理網(wǎng)絡(luò)和音頻恢復(fù)網(wǎng)絡(luò),所述語(yǔ)音識(shí)別系統(tǒng)包括依次連接的音頻處理網(wǎng)絡(luò)和文本恢復(fù)網(wǎng)絡(luò),所述說(shuō)話人信息提取模型分別與所述音頻恢復(fù)網(wǎng)絡(luò)關(guān)聯(lián),以及與所述音頻處理網(wǎng)絡(luò)關(guān)聯(lián);
獲取所述音頻處理網(wǎng)絡(luò)處理訓(xùn)練集中的第一數(shù)據(jù)對(duì)的語(yǔ)音數(shù)據(jù)得到的音頻處理結(jié)果,獲取所述說(shuō)話人信息提取模型提取的剩余數(shù)據(jù)信息,獲取所述文本處理網(wǎng)絡(luò)處理所述第一數(shù)據(jù)對(duì)的文本數(shù)據(jù)輸出的第二高維向量,其中,所述訓(xùn)練集由語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù)形成的數(shù)據(jù)對(duì)組成,所述第一數(shù)據(jù)對(duì)為訓(xùn)練集中的任意數(shù)據(jù)對(duì),所述剩余數(shù)據(jù)信息為所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本內(nèi)容信息之外的信息,所述剩余數(shù)據(jù)信息包括說(shuō)話人的聲紋信息;
從所述音頻處理結(jié)果中去除所述剩余數(shù)據(jù)信息,得到第一高維向量;
通過(guò)損失函數(shù)在所述訓(xùn)練集上訓(xùn)練所述音頻處理網(wǎng)絡(luò)、所述文本處理網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型,至所述損失函數(shù)達(dá)最小值時(shí)訓(xùn)練收斂,其中,所述損失函數(shù)為所述第一高維向量和第二高維向量的空間距離;
訓(xùn)練收斂后,固定所述音頻處理網(wǎng)絡(luò)對(duì)應(yīng)的第一參量集合以及所述文本處理網(wǎng)絡(luò)對(duì)應(yīng)的第二參量集合;
將所述音頻處理網(wǎng)絡(luò)和所述音頻恢復(fù)網(wǎng)絡(luò)組合成處理音頻的網(wǎng)絡(luò),將所述文本處理網(wǎng)絡(luò)和所述文本恢復(fù)網(wǎng)絡(luò)組合成處理文本的網(wǎng)絡(luò);
在固定所述第一參量集合的狀態(tài)下,通過(guò)所述損失函數(shù)訓(xùn)練所述處理音頻的網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型至收斂,以獲取所述音頻恢復(fù)網(wǎng)絡(luò)對(duì)應(yīng)的第三參量集合和所述說(shuō)話人信息提取模型對(duì)應(yīng)的第四參量集合;
將所述第四參量集合下的說(shuō)話人信息提取模型,作為預(yù)訓(xùn)練的說(shuō)話人信息提取模型。
2.根據(jù)權(quán)利要求1所述的說(shuō)話人信息提取模型的訓(xùn)練方法,其特征在于,所述音頻恢復(fù)網(wǎng)絡(luò)包括依次連接的第一全連接層和RNN-DECNN計(jì)算層,所述在固定所述第一參量集合的狀態(tài)下,通過(guò)所述損失函數(shù)訓(xùn)練所述處理音頻的網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型至收斂,以獲取所述音頻恢復(fù)網(wǎng)絡(luò)對(duì)應(yīng)的第三參量集合和所述說(shuō)話人信息提取模型對(duì)應(yīng)的第四參量集合的步驟,包括:
將所述第一高維向量輸入所述音頻恢復(fù)網(wǎng)絡(luò)的全連接層,得到第一計(jì)算結(jié)果;
將所述第一計(jì)算結(jié)果與所述剩余數(shù)據(jù)信息匯合,得到第二計(jì)算結(jié)果;
將所述第二計(jì)算結(jié)果輸入所述音頻恢復(fù)網(wǎng)絡(luò)的RNN-DECNN計(jì)算層,得到述第一高維向量對(duì)應(yīng)的恢復(fù)數(shù)據(jù);
判斷所述損失函數(shù)的值達(dá)到最小時(shí),所述恢復(fù)數(shù)據(jù)是否與所述語(yǔ)音數(shù)據(jù)一致;
若是,則判定通過(guò)所述損失函數(shù)訓(xùn)練所述處理音頻的網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型已收斂;
固定訓(xùn)練收斂時(shí),所述音頻恢復(fù)網(wǎng)絡(luò)對(duì)應(yīng)的參數(shù)集合為第三參量集合,所述說(shuō)話人信息提取模型對(duì)應(yīng)的參數(shù)集合為第四參量集合。
3.根據(jù)權(quán)利要求2所述的說(shuō)話人信息提取模型的訓(xùn)練方法,其特征在于,所述說(shuō)話人信息提取模型包括依次連接的可解釋卷積濾波器、深度卷積層和第二全連接層,所述獲取所述說(shuō)話人信息提取模型提取的剩余數(shù)據(jù)信息的步驟,包括:
將所述語(yǔ)音數(shù)據(jù)輸入所述可解釋卷積濾波器,得到所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的特征矩陣;
將所述特征矩陣依次輸入所述深度卷積層,從所述特征矩陣中提取所述語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本內(nèi)容信息之外的說(shuō)話人特征信息,其中,所述說(shuō)話人特征信息包括聲紋信息;
將所述說(shuō)話人特征信息輸入所述第二全連接層,得到所述說(shuō)話人特征信息的向量;
將所述說(shuō)話人特征信息的向量作為所述剩余數(shù)據(jù)信息。
4.根據(jù)權(quán)利要求1所述的說(shuō)話人信息提取模型的訓(xùn)練方法,其特征在于,所述通過(guò)損失函數(shù)在所述訓(xùn)練集上訓(xùn)練所述音頻處理網(wǎng)絡(luò)、所述文本處理網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型,至所述損失函數(shù)達(dá)最小值時(shí)訓(xùn)練收斂的步驟,包括:
通過(guò)所述訓(xùn)練集中各數(shù)據(jù)對(duì)經(jīng)由所述音頻處理網(wǎng)絡(luò)、所述文本處理網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型運(yùn)算后的結(jié)果,最小化所述損失函數(shù);
判斷所述損失函數(shù)的函數(shù)值的變化趨勢(shì)是否不再繼續(xù)下降;
若是,則判定所述損失函數(shù)達(dá)最小值,所述第一高維向量和第二高維向量在高維空間的對(duì)齊,判定所述音頻處理網(wǎng)絡(luò)、所述文本處理網(wǎng)絡(luò)和所述說(shuō)話人信息提取模型訓(xùn)練收斂。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市友杰智新科技有限公司,未經(jīng)深圳市友杰智新科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010542435.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于事先知識(shí)的說(shuō)話者檢驗(yàn)及說(shuō)話者識(shí)別系統(tǒng)和方法
- 說(shuō)話人聲音的后臺(tái)學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說(shuō)話人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語(yǔ)音合成字典生成裝置和語(yǔ)音合成字典生成方法
- 說(shuō)話人識(shí)別方法和說(shuō)話人識(shí)別設(shè)備
- 語(yǔ)音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說(shuō)話人條件下目標(biāo)說(shuō)話人語(yǔ)音提取方法
- 一種語(yǔ)音處理方法、介質(zhì)及系統(tǒng)
- 語(yǔ)音翻譯裝置、語(yǔ)音翻譯方法以及記錄介質(zhì)
- 說(shuō)話人識(shí)別方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





