[發明專利]音頻文件生成方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202011111958.X | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112164379A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 牛力強 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10H1/00 | 分類號: | G10H1/00;G10L13/08 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 劉星雨;張穎玲 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻文件 生成 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種音頻文件生成方法,其特征在于,包括:
接收音頻文件生成請求,所述音頻文件生成請求中包括文本和目標對象;
對所述文本和所述目標對象分別進行特征提取,對應得到所述文本的第一特征向量和所述目標對象的第二特征向量;
對所述第一特征向量和所述第二特征向量進行拼接,形成拼接特征向量;
對所述拼接特征向量進行音頻屬性特征的預測,得到至少兩個具有不同類型的音頻屬性特征;
根據至少兩個所述音頻屬性特征,生成包含有所述文本且具有所述目標對象的聲音特性的音頻文件。
2.根據權利要求1所述的方法,其特征在于,所述對所述拼接特征向量進行音頻屬性特征的預測,得到至少兩個具有不同類型的音頻屬性特征,包括:
采用至少兩個解碼器對所述拼接特征向量分別進行音頻屬性特征的預測,對應得到至少兩個具有不同類型的所述音頻屬性特征;其中,每一解碼器用于對一種類型的音頻屬性特征進行預測。
3.根據權利要求1所述的方法,其特征在于,所述對所述文本和所述目標對象分別進行特征提取,對應得到所述文本的第一特征向量和所述目標對象的第二特征向量,包括:
對所述文本依次進行音素轉換處理和位置信息嵌入處理,得到所述文本的第一特征向量;
對所述目標對象進行特征嵌入處理,得到用于表征所述目標對象的屬性信息的所述第二特征向量。
4.根據權利要求3所述的方法,其特征在于,所述對所述文本依次進行音素轉換處理和位置信息嵌入處理,得到所述文本的第一特征向量,包括:
對所述文本中的每一字依次進行所述音素轉換處理,得到與所述文本對應的音素序列;
獲取所述音素序列中每一音素的位置信息,形成位置序列;
采用所述位置序列,對所述音素序列中的每一音素進行所述位置信息嵌入處理,得到與所述音素序列對應的且用于表征所述文本的內容的所述第一特征向量。
5.根據權利要求4所述的方法,其特征在于,所述采用所述位置序列,對所述音素序列中的每一音素進行所述位置信息嵌入處理,得到與所述音素序列對應的且用于表征所述文本的內容的所述第一特征向量,包括:
在預設嵌入詞典中查找所述音素序列中的每一音素對應的音素向量、和所述位置序列中的每一所述位置信息對應的位置向量;
對每一音素的音素向量中的元素、和與所述音素對應的位置信息的位置向量中的對應元素進行求和,得到對每一音素嵌入所述位置信息后的嵌入向量;
根據所述音素序列中的全部音素的所述嵌入向量,確定所述第一特征向量。
6.根據權利要求5所述的方法,其特征在于,所述根據所述音素序列中的全部音素的所述嵌入向量,確定所述第一特征向量,包括:
對所述嵌入向量進行至少一次復制,得到多個相同的嵌入向量;
對所述多個相同的嵌入向量進行多維注意力計算,得到多個注意力向量;
對所述多個注意力向量依次進行求和處理和歸一化處理,得到所述第一特征向量。
7.根據權利要求2所述的方法,其特征在于,所述至少兩個解碼器中至少包括音高解碼器、能量解碼器、節奏解碼器和頻譜解碼器;對應地,所述音頻屬性特征至少包括音高特征、能量特征、節奏特征和頻譜特征;
所述采用至少兩個解碼器對所述拼接特征向量分別進行音頻屬性特征的預測,對應得到至少兩個具有不同類型的音頻屬性特征,包括:
采用所述音高解碼器對所述拼接特征向量進行音高特征的預測,得到音高特征;
采用所述能量解碼器對所述拼接特征向量進行能量特征的預測,得到能量特征;
采用所述節奏解碼器對所述拼接特征向量進行節奏特征的預測,得到節奏特征;
采用所述頻譜解碼器對所述拼接特征向量進行頻譜特征的預測,得到頻譜特征。
8.根據權利要求7所述的方法,其特征在于,
所述音高解碼器、所述能量解碼器、所述節奏解碼器和所述頻譜解碼器具有相同的網絡結構;且
所述音高解碼器、所述能量解碼器、所述節奏解碼器和所述頻譜解碼器的網絡結構內部的參數不同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011111958.X/1.html,轉載請聲明來源鉆瓜專利網。





