[發(fā)明專利]基于生成對抗網(wǎng)絡(luò)的語音處理方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110341574.5 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113096673B | 公開(公告)日: | 2022-09-30 |
| 發(fā)明(設(shè)計)人: | 李曄;馮濤;張鵬;李姝;汪付強 | 申請(專利權(quán))人: | 山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G10L19/16 | 分類號: | G10L19/16;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 生成 對抗 網(wǎng)絡(luò) 語音 處理 方法 系統(tǒng) | ||
1.一種基于生成對抗網(wǎng)絡(luò)的語音處理方法,其特征在于,包括:
獲取源語音,并輸入至編碼器對源語音進行編碼;
將編碼后的語音信號輸入至生成對抗網(wǎng)絡(luò)模型,最后輸出與源語音相匹配的恢復(fù)的語音;
其中,生成對抗網(wǎng)絡(luò)模型包括生成器和鑒別器,訓(xùn)練集由編碼前的源語音和編碼后質(zhì)量下降的語音構(gòu)成;生成器用于恢復(fù)編碼后質(zhì)量下降的語音;鑒別器用于比對恢復(fù)后的語音與編碼前的源語音以區(qū)分真信號與假信號,再由鑒別器將區(qū)分結(jié)果反饋給生成器,以指導(dǎo)生成器學(xué)習(xí)源語音的真實分布的輸出;
訓(xùn)練生成對抗網(wǎng)絡(luò)模型的步驟,包括:
S1.制作數(shù)據(jù)集;
S2.數(shù)據(jù)集的處理;
S3.生成器初始化;
S4.鑒別器初始化;
S5.優(yōu)化權(quán)值;
其中,數(shù)據(jù)集的處理過程為:
(1)將數(shù)據(jù)集中的數(shù)據(jù)整合為tfrecords文件,A、B、C數(shù)據(jù)被分到wav類,A’,B’,C’被分到noisy類,wav類與noisy類數(shù)據(jù)是一一對應(yīng)的;
(2)確定GAN的優(yōu)化器為RMSProp,將tfrecords文件的wav類與noisy類數(shù)據(jù)讀取出來;
(3)將wav類與noisy類的語音數(shù)據(jù)的幅值除以2^16,得到處理后的wav’類與noisy’類數(shù)據(jù);
(4)將wav’類與noisy’類數(shù)據(jù)放入程序隊列,來等待取出所需的wav’類與noisy’類批次;
優(yōu)化權(quán)值的階段為:
(1)鑒別器使用wav’類語音作為真實數(shù)據(jù),進行鑒別器初始化階段時輸出真的概率,表示為真數(shù)據(jù),輸出使用R表示;鑒別器輸入生成器生成的X作為假數(shù)據(jù),鑒別器將進行初始化階段的操作輸出0的概率,表示為假數(shù)據(jù),輸出使用F表示;
(2)使用flossf表示為鑒別器鑒別輸入為假的概率,flossr表示鑒別器鑒別輸入為真的概率,使用gloss表示生成器的Loss值,其計算公式分別為
在訓(xùn)練生成對抗網(wǎng)絡(luò)模型的過程中,根據(jù)生成器的Loss值更新生成器初始化中的卷積與反卷積的卷積核的各個數(shù)值的權(quán)重;
根據(jù)鑒別器的loss值更新并保存到本地鑒別器初始化中的卷積核數(shù)值的權(quán)重及虛擬批量標(biāo)準(zhǔn)化中鑒別器相關(guān)參數(shù)值;
在訓(xùn)練階段,重復(fù)鑒別器初始化、生成器初始化、優(yōu)化權(quán)值三個步驟,判斷當(dāng)前訓(xùn)練數(shù)據(jù)個數(shù)是否大于tfrecords文件中數(shù)據(jù)個數(shù),重復(fù)進行訓(xùn)練直到達到規(guī)定的訓(xùn)練個數(shù)。
2.如權(quán)利要求1所述的基于生成對抗網(wǎng)絡(luò)的語音處理方法,其特征在于,所述生成器包括編碼和解碼兩部分結(jié)構(gòu),編碼結(jié)構(gòu)用于提取輸入至生成器的語音的特征,解碼結(jié)構(gòu)用于輸出恢復(fù)的語音。
3.如權(quán)利要求2所述的基于生成對抗網(wǎng)絡(luò)的語音處理方法,其特征在于,所述編碼結(jié)構(gòu)為若干個二維卷積層。
4.如權(quán)利要求1所述的基于生成對抗網(wǎng)絡(luò)的語音處理方法,其特征在于,所述鑒別器為若干個二維卷積層。
5.如權(quán)利要求1所述的基于生成對抗網(wǎng)絡(luò)的語音處理方法,其特征在于,在訓(xùn)練生成對抗網(wǎng)絡(luò)模型的過程中,鑒別器使用加設(shè)權(quán)值的wav類語音作為真實數(shù)據(jù),進行鑒別器初始化階段時輸出真的概率,表示為真數(shù)據(jù);鑒別器輸入生成器生成的語音作為假數(shù)據(jù),鑒別器將進行初始化階段的操作輸出0的概率,表示為假數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省計算中心(國家超級計算濟南中心),未經(jīng)山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110341574.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





