[發(fā)明專利]文本轉(zhuǎn)語音方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)在審

申請?zhí)枺?/td>	202111130534.2	申請日：	2021-09-26
公開（公告）號：	CN113851108A	公開（公告）日：	2021-12-28
發(fā)明（設(shè)計(jì)）人：	張旭龍;王健宗	申請（專利權(quán)）人：	平安科技（深圳）有限公司
主分類號：	G10L13/08	分類號：	G10L13/08;G10L13/033;G10L25/27;G10L25/03
代理公司：	深圳眾鼎專利商標(biāo)代理事務(wù)所(普通合伙) 44325	代理人：	譚果林
地址：	518000 廣東省深圳市福田區(qū)福***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本語音方法裝置計(jì)算機(jī) 設(shè)備存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種文本轉(zhuǎn)語音方法，其特征在于，包括：

從音色數(shù)據(jù)庫中獲取音色信息，并從客戶端獲取用戶輸入的目標(biāo)文本，對所述目標(biāo)文本和所述音色信息進(jìn)行預(yù)處理，得到第一復(fù)合信息；

將所述第一復(fù)合信息輸入注意力層，通過所述注意力層中的注意力網(wǎng)絡(luò)模型對所述第一復(fù)合信息的復(fù)合特征進(jìn)行提取，得到所述注意力層輸出的第二復(fù)合信息；

將所述第二復(fù)合信息輸入音色分類器，通過所述音色分類器對所述第二復(fù)合信息進(jìn)行音色識(shí)別，判斷所述第二復(fù)合信息是否為目標(biāo)音；

若所述第二復(fù)合信息為目標(biāo)音，則通過語音生成器對所述第二復(fù)合信息進(jìn)行解碼，得到與所述二復(fù)合信息對應(yīng)的梅爾譜圖，并對所述梅爾譜圖進(jìn)行逆處理，生成與所述目標(biāo)文本對應(yīng)的語音信息。

2.如權(quán)利要求1所述的文本轉(zhuǎn)語音方法，其特征在于，所述對所述目標(biāo)文本和所述音色信息進(jìn)行預(yù)處理，得到第一復(fù)合信息，包括：

將所述目標(biāo)文本輸入文本編碼器，通過所述文本編碼器將所述目標(biāo)文本轉(zhuǎn)換為文本矩陣；

將所述音色信息輸入預(yù)設(shè)深度網(wǎng)絡(luò)模型，通過所述預(yù)設(shè)深度網(wǎng)絡(luò)模型將所述音色信息轉(zhuǎn)換為音色矩陣；

將所述音色矩陣嵌入所述文本矩陣，得到第一復(fù)合信息。

3.如權(quán)利要求1所述的文本轉(zhuǎn)語音方法，其特征在于，所述對所述目標(biāo)文本和所述音色信息進(jìn)行預(yù)處理，還包括：

接收目標(biāo)語言設(shè)置指令；

根據(jù)所述目標(biāo)語言設(shè)置指令對語言種類進(jìn)行設(shè)置，得到目標(biāo)語言，將所述目標(biāo)語言存儲(chǔ)在存儲(chǔ)器中；

將原始文本轉(zhuǎn)換為與所述目標(biāo)語言對應(yīng)的所述目標(biāo)文本。

4.如權(quán)利要求1所述的文本轉(zhuǎn)語音方法，其特征在于，所述將所述第一復(fù)合信息輸入注意力層，通過所述注意力層中的注意力網(wǎng)絡(luò)模型對所述第一復(fù)合信息的復(fù)合特征進(jìn)行提取，得到所述注意力層輸出的第二復(fù)合信息，包括：

將所述第一復(fù)合信息輸入注意力層；

通過所述注意力網(wǎng)絡(luò)模型對所述第一復(fù)合信息中上下文語義信息進(jìn)行融合，提取所述第一復(fù)合信息的復(fù)合特征，得到所述注意力層輸出的第二復(fù)合信息。

5.如權(quán)利要求1所述的文本轉(zhuǎn)語音方法，其特征在于，所述若所述第二復(fù)合信息為目標(biāo)音，則通過語音生成器對所述第二復(fù)合信息進(jìn)行解碼，得到與所述二復(fù)合信息對應(yīng)的梅爾譜圖，并對所述梅爾譜圖進(jìn)行逆處理，生成與所述目標(biāo)文本對應(yīng)的語音信息，包括：

在所述為第二復(fù)合信息為目標(biāo)音時(shí)，通過基于神經(jīng)網(wǎng)絡(luò)的聲碼器將所述第二復(fù)合信息進(jìn)行解碼為梅爾譜圖；

通過預(yù)設(shè)變換規(guī)則，對所述梅爾譜圖進(jìn)行逆處理，生成與所述目標(biāo)文本對應(yīng)的語音信息。

6.如權(quán)利要求1所述的文本轉(zhuǎn)語音方法，其特征在于，所述通過所述音色分類器對所述第二復(fù)合信息進(jìn)行音色識(shí)別，判斷所述第二復(fù)合信息是否為目標(biāo)音之后，包括：

若所述第二復(fù)合信息不是目標(biāo)音，根據(jù)所述第二復(fù)合信息生成反饋信息；

將所述反饋信息發(fā)送至所述語音生成器，以使所述語音生成器減少對所述第二復(fù)合信息的處理。

7.如權(quán)利要求1所述的文本轉(zhuǎn)語音方法，其特征在于，所述通過所述音色分類器對所述第二復(fù)合信息進(jìn)行音色識(shí)別，判斷所述第二復(fù)合信息是否為目標(biāo)音之后，還包括：

若所述第二復(fù)合信息不是目標(biāo)音，則獲取新的音色信息，對所述目標(biāo)文本和所述新的音色信息進(jìn)行預(yù)處理，得到新的第一復(fù)合信息；

將所述新的第一復(fù)合信息輸入注意力層，得到所述注意力層輸出的新的第二復(fù)合信息；

將所述新的第二復(fù)合信息輸入音色分類器，通過所述音色分類器判斷所述新的第二復(fù)合信息是否為目標(biāo)音；

若所述新的第二復(fù)合信息為目標(biāo)音，則通過語音生成器處理所述新的第二復(fù)合信息，生成與所述目標(biāo)文本對應(yīng)的語音信息。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技（深圳）有限公司，未經(jīng)平安科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111130534.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】