[發明專利]基于生成式對抗網絡的情感語音自動生成方法及裝置有效
| 申請號: | 202010111434.4 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111243569B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 陳晉音;葉林輝;鄭海斌 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033;G10L17/00;G10L17/04;G10L17/06;G10L17/18;G10L19/02;G10L25/30;G10L25/63 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 情感 語音 自動 方法 裝置 | ||
本發明公開了一種生成式對抗網絡的情感語音自動生成方法,包括:(1)準備語音數據集、語音情感數據集以及語言數據集;(2)利用語音數據集訓練基于ResCNN構建的聲紋識別模型,利用語音情感數據集訓練基于CNN構建的語音情感識別模型,利用語言數據集訓練語音生成模型;(3)以多個語音生成模型作為生成器,以聲紋識別模型和語音情感識別模型作為判別器,構成生成式對抗網絡,利用語音數據集、語音情感數據集以及語言數據集對生成式對抗網絡進行再訓練,獲得能夠生成特定身份特定情感語音的語音生成模型。(4)利用該語音生成模型自動生成情感語音。該方法可以使生成的語音更加自然且帶有情感色彩身份信息。
技術領域
本發明屬于情感識別領域,具體涉及一種生成式對抗網絡的情感語音自動生成方法及裝置。
背景技術
隨著人機交互方式的日益更新和發展,人機交互方式已經從機械時代進入多媒體用戶界面時代。近些年來,由于語音識別技術,語音生成技術的發展,人們逐漸拋棄了鍵盤,鼠標,觸摸屏等傳統的與機器的交互方式。而計算機也有了具備像人一樣的具有“聽”和“說”的能力。“聽”實際上就是語音識別技術,這一方面已經有了迅速的發展,使計算機“聽”的能力有了大幅度的提高。“說”指的就是語音生成技術。語音生成技術在自然處理、信號處理和隨機過程處理等方法的推動下獲得很大的發展。語音生成技術的應用廣泛,如隨著書籍無紙化的不斷發展,在電子書的基礎上出現了網絡聽書的方式,網絡聽說因為其方便、節省時間并且聲優的聲音會隨書籍情節的改變進行語調、情感的改變,更有代入感的優點,迅速受到大家的歡迎。但是因為目前市場上已出版書籍數量巨大,而聘請聲優為整本書進行配音成本較高,因此導致能夠進行網絡聽書的書籍類型和數量較少,不能夠滿足大多數使用者的需要。使用語音生成技術可以給有聲書的合成帶來巨大的便利,可以節省成本,而使用傳統語音生成技術合成的聲音存在情感表現力弱,語音的表達比較僵硬,不自然,不存在身份信息等缺點。
在語音領域,語音識別技術,語音生成技術發展的同時,聲紋識別和語音情感識別技術也有了巨大的發展。目前,聲紋識別技術已經應用到人們日常生活的各個角落。比如銀行、證券等行業利用聲紋識別技術對電話,遠程炒股等業務中對用戶身份進行確認,提高了商業領域交易的安全性;在公安司法領域,對于各種電話勒索,綁架,電話人身攻擊等案件,利用聲紋識別技術可以在一段錄音中查找出嫌疑人或縮小偵查范圍。語音情感識別技術也在生活中得到了廣泛的應用,比如在電話服務中心,通過語音情感識別技術,識別顧客的情緒,合理地進行反饋可以很大的提高顧客的滿意度;在汽車駕駛領域,利用語音情感識別,結合圖像識別,可以有效的觀測駕駛員的精神狀態,可以有效防止駕駛疲勞,路怒癥等情況的發生;在安全監控系統中加入語音情感識別技術,可以對公共場所因為情緒失控而發生暴力的情況進行監控,從而有效避免暴力事件的發生。
由于聲紋識別和語音情感識別的廣泛應用以及優異的性能,使用聲紋識別模型和語音情感識別模型指導語音生成模型生成帶有情感的,更加自然的語音成為可能。
發明內容
針對目前語音生成技術所合成的語音表現力差,不自然,不帶有情感色彩,不能按指定身份合成語音的缺陷,本發明提供了一種基于生成式對抗網絡的情感語音自動生成方法及裝置,該方法可以使生成的語音更加自然,使生成的語音帶有情感色彩身份信息等,擴大語音生成技術的應用場景。
本發明的技術方案為:
一種生成式對抗網絡的情感語音自動生成方法,包括以下步驟:
(1)準備語音數據集、語音情感數據集以及語言數據集;
(2)利用語音數據集訓練基于ResCNN構建的聲紋識別模型,利用語音情感數據集訓練基于CNN構建的語音情感識別模型,利用語言數據集訓練語音生成模型;
(3)以多個語音生成模型作為生成器,以聲紋識別模型和語音情感識別模型作為判別器,構成生成式對抗網絡,利用語音數據集、語音情感數據集以及語言數據集對生成式對抗網絡進行再訓練,獲得能夠生成特定身份特定情感語音的語音生成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010111434.4/2.html,轉載請聲明來源鉆瓜專利網。





