[發明專利]基于生成式對抗網絡的情感語音自動生成方法及裝置有效
| 申請號: | 202010111434.4 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111243569B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 陳晉音;葉林輝;鄭海斌 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033;G10L17/00;G10L17/04;G10L17/06;G10L17/18;G10L19/02;G10L25/30;G10L25/63 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 情感 語音 自動 方法 裝置 | ||
1.一種生成式對抗網絡的情感語音自動生成方法,其特征在于,包括以下步驟:
(1)準備語音數據集、語音情感數據集以及語言數據集;
(2)利用語音數據集訓練基于ResCNN構建的聲紋識別模型,利用語音情感數據集訓練基于CNN構建的語音情感識別模型,利用語言數據集訓練語音生成模型;
(3)以多個語音生成模型作為生成器,以聲紋識別模型和語音情感識別模型作為判別器,構成生成式對抗網絡,利用語音數據集、語音情感數據集以及語言數據集對生成式對抗網絡進行再訓練,獲得能夠生成特定身份特定情感語音的語音生成模型;
(4)利用該語音生成模型自動生成情感語音。
2.如權利要求1所述的生成式對抗網絡的情感語音自動生成方法,其特征在于,所述語音數據集為Librispeech語音數據集,所述語音情感數據集為EMO-DB語音情感數據集,所述語言數據集為North American English數據集。
3.如權利要求1所述的生成式對抗網絡的情感語音自動生成方法,其特征在于,利用語音數據集訓練基于ResCNN構建的聲紋識別模型包括以下步驟:
對語音音頻進行分幀,并對每幀語音信號加窗處理后進行短時傅里葉變換,獲得語音信號的頻譜,計算語音信號的頻譜的功率譜后,對功率譜通過一組梅爾尺度的三角形濾波器組后計算梅爾倒譜系數,計算倒譜系數的一階和二階差分值,最終得到64維的fbank系數作為聲紋識別模型的輸入;
根據ResCNN構建聲紋識別模型,在語音數據集隨機選擇一條語音當做anchor,再從同一個說話者的語音中隨機選擇一條語音當做positive,再從不同的說話者的語音中隨機選擇一條語音當做negative,組成ancho r-positive-negative對;
以Triplet loss作為損失函數L,以損失函數最小為目標,利用ancho r-positive-negative對對聲紋識別模型進行訓練;
其中,表示語音anchor與語音negative的余弦相似度,表示語音anchor與語音positive的余弦相似度,α是設定的閾值,[]+=max(x,0)。
4.如權利要求1所述的生成式對抗網絡的情感語音自動生成方法,其特征在于,利用語音情感數據集訓練基于CNN構建的語音情感識別模型包括以下步驟:
對音頻進行分幀,并對每幀語音信號加窗處理后進行短時傅里葉變換,計算短時傅里葉變換結果的功率譜,并對功率譜進行歸一化處理,獲得聲譜圖;
根據CNN構建語音情感識別模型,以交叉熵作為損失函數L(xi),以損失函數最小為目標,利用聲譜圖對語音情感識別模型進行訓練,
L(xi)=-[yilogyipre+(1-yi)log(1-yipre)]
其中,yi表示真實標簽,yipre為聲譜圖樣本xi經過語音情感識別模型輸出的置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010111434.4/1.html,轉載請聲明來源鉆瓜專利網。





