[發(fā)明專利]聲學(xué)特征提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	202110310466.1	申請(qǐng)日：	2021-03-23
公開（公告）號(hào)：	CN113035228A	公開（公告）日：	2021-06-25
發(fā)明（設(shè)計(jì)）人：	孫洪文;陳傳藝;勞振鋒;關(guān)迪聆	申請(qǐng)（專利權(quán)）人：	廣州酷狗計(jì)算機(jī)科技有限公司
主分類號(hào)：	G10L25/03	分類號(hào)：	G10L25/03;G10L25/30
代理公司：	北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138	代理人：	李芳
地址：	510660 廣東省廣州***	國(guó)省代碼：	廣東;44
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	聲學(xué) 特征提取方法裝置設(shè)備存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種聲學(xué)特征提取方法，其特征在于，所述方法包括：

對(duì)目標(biāo)音頻片段進(jìn)行分幀處理，得到多個(gè)音頻幀；

提取各個(gè)所述音頻幀分別對(duì)應(yīng)的音高和音素，得到所述目標(biāo)音頻片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各個(gè)所述音頻幀對(duì)應(yīng)的音高，所述音素序列信息包括各個(gè)所述音頻幀對(duì)應(yīng)的音素，所述音素位置信息包括各個(gè)所述音頻幀對(duì)應(yīng)的音素在所述目標(biāo)音頻片段中的位置編碼；

對(duì)所述音高序列信息、所述音素序列信息和所述音素位置信息進(jìn)行合成處理，得到所述目標(biāo)音頻片段的合成屬性信息；

對(duì)所述合成屬性信息進(jìn)行編解碼處理，得到所述目標(biāo)音頻片段的聲學(xué)特征。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述音高序列信息、所述音素序列信息和所述音素位置信息進(jìn)行合成處理，得到所述目標(biāo)音頻片段的合成屬性信息，包括：

獲取各個(gè)所述音頻幀對(duì)應(yīng)的音高的嵌入向量，得到第一嵌入向量序列；

獲取各個(gè)所述音頻幀對(duì)應(yīng)的音素的嵌入向量，得到第二嵌入向量序列；

對(duì)所述音素位置信息進(jìn)行線性變換處理，得到處理后的音素位置信息；

對(duì)所述第一嵌入向量序列、所述第二嵌入向量序列和所述處理后的音素位置信息進(jìn)行合成處理，得到所述合成屬性信息。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述獲取各個(gè)所述音頻幀對(duì)應(yīng)的音高的嵌入向量，得到第一嵌入向量序列，包括：

對(duì)各個(gè)所述音頻幀對(duì)應(yīng)的音高分別進(jìn)行數(shù)值轉(zhuǎn)換處理，得到各個(gè)所述音頻幀對(duì)應(yīng)的轉(zhuǎn)換后音高值；

對(duì)各個(gè)所述音頻幀對(duì)應(yīng)的轉(zhuǎn)換后音高值分別進(jìn)行取整處理，得到各個(gè)所述音頻幀對(duì)應(yīng)的取整值；

基于各個(gè)所述音頻幀對(duì)應(yīng)的取整值，確定各個(gè)所述音頻幀對(duì)應(yīng)的音高的嵌入向量；

合并各個(gè)所述音頻幀對(duì)應(yīng)的音高的嵌入向量，得到所述第一嵌入向量序列。

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述合成屬性信息還包括所述目標(biāo)音頻片段的發(fā)音者標(biāo)識(shí)對(duì)應(yīng)的嵌入向量；

所述獲取各個(gè)所述音頻幀對(duì)應(yīng)的音素的嵌入向量，得到第二嵌入向量序列之后，所述方法還包括：

采用音素特征轉(zhuǎn)換網(wǎng)絡(luò)對(duì)所述第二嵌入向量序列進(jìn)行轉(zhuǎn)換處理，得到轉(zhuǎn)換后的第二嵌入向量序列；其中，所述音素特征轉(zhuǎn)換網(wǎng)絡(luò)用于在對(duì)所述第二嵌入向量序列進(jìn)行轉(zhuǎn)換處理的過(guò)程中，去除發(fā)音者信息；

其中，所述轉(zhuǎn)換后的第二嵌入向量序列用于生成所述合成屬性信息。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述得到音素位置信息，包括：

對(duì)于每一個(gè)所述音頻幀，獲取所述音頻幀在相同音素連續(xù)幀序列中的位置信息，所述相同音素連續(xù)幀序列是指與所述音頻幀具有相同音素且連續(xù)的多個(gè)音頻幀所形成的序列；

基于所述位置信息，生成所述音頻幀對(duì)應(yīng)的音素的位置編碼；

合并各個(gè)所述音頻幀對(duì)應(yīng)的音素的位置編碼，得到所述音素位置信息。

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述位置信息，生成所述音頻幀對(duì)應(yīng)的音素的位置編碼，包括：

基于所述位置信息和所述相同音素連續(xù)幀序列中包含的音頻幀數(shù)量，確定所述位置編碼的元參數(shù)；

基于所述元參數(shù)生成所述音頻幀對(duì)應(yīng)的音素的位置編碼，所述位置編碼是一個(gè)包括多個(gè)元素的向量。

7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法，其特征在于，所述編解碼處理由聲學(xué)特征提取模型執(zhí)行，所述聲學(xué)特征提取模型包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)；

所述對(duì)所述合成屬性信息進(jìn)行編解碼處理，得到所述目標(biāo)音頻片段的聲學(xué)特征，包括：

采用所述編碼網(wǎng)絡(luò)對(duì)所述合成屬性信息進(jìn)行編碼處理，得到編碼特征向量；

對(duì)所述編碼特征向量進(jìn)行下采樣處理，得到下采樣后的編碼特征向量；

采用注意力機(jī)制對(duì)所述下采樣后的編碼特征向量進(jìn)行特征重組處理，得到重組后的編碼特征向量；

采用所述解碼網(wǎng)絡(luò)對(duì)所述重組后的編碼特征向量進(jìn)行解碼處理，得到所述目標(biāo)音頻片段的聲學(xué)特征。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州酷狗計(jì)算機(jī)科技有限公司，未經(jīng)廣州酷狗計(jì)算機(jī)科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110310466.1/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】