[發明專利]語音處理方法、裝置、設備及存儲介質在審
| 申請號: | 202210118558.4 | 申請日: | 2022-02-08 |
| 公開(公告)號: | CN114495956A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 趙情恩;梁蕓銘;張銀輝 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/03;G10L25/18;G10L25/30 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 包莉莉;王丹丹 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 方法 裝置 設備 存儲 介質 | ||
1.一種語音處理方法,包括:
獲取待處理文本的音素序列和參考風格音頻的風格屬性信息,所述風格屬性信息包含說話人特征和韻律特征;
利用所述風格屬性信息,得到所述音素序列對應的音頻特征;
根據所述音素序列對應的音頻特征,得到所述待處理文本對應的目標風格音頻。
2.根據權利要求1所述的方法,其中,獲取所述風格屬性信息中的說話人特征,包括:
獲取所述參考風格音頻的分類標簽向量;
根據所述分類標簽向量,利用預設的查找表確定所述參考風格音頻的說話人特征向量;
根據所述說話人特征向量,生成所述參考風格音頻的說話人特征。
3.根據權利要求1所述的方法,其中,獲取所述風格屬性信息中的韻律特征,包括:
獲取所述參考風格音頻的梅爾譜特征;
根據所述梅爾譜特征,利用韻律編碼器確定所述參考風格音頻的韻律向量;
根據所述韻律向量,生成所述參考風格音頻的韻律特征。
4.根據權利要求1所述的方法,其中,利用所述風格屬性信息,得到所述音素序列對應的音頻特征,包括:
利用所述風格屬性信息對所述音素序列進行文本編碼處理,得到所述音素序列的高維語義特征;以及,
利用所述風格屬性信息對所述音素序列的高維語義特征進行聲譜解碼處理,得到所述音素序列對應的音頻特征。
5.根據權利要求4所述的方法,其中,利用所述風格屬性信息對所述音素序列進行文本編碼處理,得到所述音素序列的高維語義特征,包括:
對待處理文本的音素序列進行位置編碼處理,得到包含位置編碼信息的第一音素序列;
利用所述風格屬性信息,對所述第一音素序列依次進行多注意力機制的高維映射處理和卷積處理,得到所述音素序列的高維語義特征。
6.根據權利要求4所述的方法,其中,利用所述風格屬性信息對所述音素序列的高維語義特征進行聲譜解碼處理,得到所述音素序列對應的音頻特征,包括:
根據所述說話人特征中包含的發音時長屬性、發音音高屬性和發音能量屬性,對所述高維語義特征進行特征融合處理,得到第一高維語義特征;
對所述第一高維語義特征進行位置編碼處理,得到第二高維語義特征;
利用所述風格屬性信息,對所述第二高維語義特征依次進行多注意力機制的高維映射處理和卷積處理,得到第三高維語義特征;
對所述第三高維語義特征進行全連接運算處理,得到所述音素序列對應的音頻特征。
7.一種模型訓練方法,包括:
獲取初始風格編碼網絡和初始聲譜生成網絡,所述初始聲譜生成網絡包括文本編碼模塊和聲譜編碼模塊;以及,獲取參考風格音頻樣本和對應的文本標注樣本;
將所述參考風格音頻樣本輸入所述初始風格編碼網絡,得到預測風格屬性信息,所述預測風格屬性信息包含說話人特征和韻律特征;
將所述文本標注樣本和所述預測風格屬性信息輸入所述初始聲譜生成網絡,得到預測音頻特征;
利用所述預測音頻特征和所述參考風格音頻樣本的差異,對所述初始風格編碼網絡和所述初始聲譜生成網絡的參數進行調整,得到符合預設條件的目標風格編碼網絡和目標聲譜生成網絡。
8.根據權利要求7所述的方法,還包括:
利用第一參考風格音頻樣本和第一文本標注樣本,對所述初始風格編碼網絡和所述初始聲譜生成網絡進行訓練,得到符合第一預設條件的基礎風格編碼網絡和待選聲譜生成網絡;
利用第二參考風格音頻樣本和第二文本標注樣本,對所述基礎風格編碼網絡進行訓練,得到符合第二預設條件的待選風格編碼網絡;
對所述待選風格編碼網絡和所述待選聲譜生成網絡進行測試,得到符合第三預設條件的目標風格編碼網絡和目標聲譜生成網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210118558.4/1.html,轉載請聲明來源鉆瓜專利網。





