[發(fā)明專利]文本轉(zhuǎn)語(yǔ)音方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011640955.5 | 申請(qǐng)日: | 2020-12-31 |
| 公開(公告)號(hào): | CN112820269A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計(jì))人: | 李俊杰;陳閩川;馬駿;王少軍 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G10L13/04 | 分類號(hào): | G10L13/04;G10L13/10;G06F40/30;G06F40/289;G06F40/284 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 語(yǔ)音 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及自然語(yǔ)言處理技術(shù),揭露一種文本轉(zhuǎn)語(yǔ)音方法,包括:接收待轉(zhuǎn)換文本,對(duì)所述待轉(zhuǎn)換文本執(zhí)行字嵌入及位置嵌入,得到文本編碼向量,從所述文本編碼向量中提取語(yǔ)義信息,得到語(yǔ)義向量,對(duì)所述待轉(zhuǎn)換文本執(zhí)行詞性標(biāo)注,得到詞性標(biāo)注信息,對(duì)所述待轉(zhuǎn)換文本執(zhí)行分詞,得到詞組集,利用所述語(yǔ)義向量及所述詞性標(biāo)注信息,檢測(cè)所述詞組集中每組詞組的音調(diào)及拼音,得到音調(diào)集及拼音集,合成所述音調(diào)集及所述拼音集,得到所述待轉(zhuǎn)換文本的語(yǔ)音。本發(fā)明還揭露文本轉(zhuǎn)語(yǔ)音裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。本發(fā)明可解決文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確率較低。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,尤其涉及一種文本轉(zhuǎn)語(yǔ)音方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
伴隨人工智能蓬勃發(fā)展,文本轉(zhuǎn)語(yǔ)音技術(shù)(TTS)也成為熱點(diǎn)的技術(shù)突破方向,目前文本轉(zhuǎn)語(yǔ)音技術(shù)主要結(jié)合中文分詞、多音字消歧、韻律劃分等傳統(tǒng)方法,由于缺少對(duì)文本的深度提取,導(dǎo)致文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確率較低。也有部分文本轉(zhuǎn)語(yǔ)音技術(shù)基于神經(jīng)網(wǎng)絡(luò)來(lái)提升數(shù)據(jù)特征的效果,但所使用的神經(jīng)網(wǎng)絡(luò)較簡(jiǎn)單,導(dǎo)致文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確率有待進(jìn)一步提高。
發(fā)明內(nèi)容
本發(fā)明提供一種文本轉(zhuǎn)語(yǔ)音方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其主要目的在于解決文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確率較低。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種文本轉(zhuǎn)語(yǔ)音方法,包括:
接收待轉(zhuǎn)換文本,對(duì)所述待轉(zhuǎn)換文本執(zhí)行字嵌入及位置嵌入,得到文本編碼向量;
從所述文本編碼向量中提取語(yǔ)義信息,得到語(yǔ)義向量;
對(duì)所述待轉(zhuǎn)換文本執(zhí)行詞性標(biāo)注,得到詞性標(biāo)注信息;
對(duì)所述待轉(zhuǎn)換文本執(zhí)行分詞,得到詞組集;
利用所述語(yǔ)義向量及所述詞性標(biāo)注信息,檢測(cè)所述詞組集中每組詞組的音調(diào)及拼音,得到音調(diào)集及拼音集;
合成所述音調(diào)集及所述拼音集,得到所述待轉(zhuǎn)換文本的語(yǔ)音。
可選地,所述對(duì)所述待轉(zhuǎn)換文本執(zhí)行字嵌入及位置嵌入,得到文本編碼向量,包括:
將所述待轉(zhuǎn)換文本執(zhí)行去噪及分詞處理,得到待轉(zhuǎn)換詞組集;
根據(jù)所述待轉(zhuǎn)換詞組集的數(shù)量,構(gòu)建相同數(shù)量且向量維度固定的空向量,將所述待轉(zhuǎn)換詞組集中每個(gè)待轉(zhuǎn)換詞組映射至所述空向量中,得到字嵌入向量集;
計(jì)算所述待轉(zhuǎn)換詞組集中每個(gè)待轉(zhuǎn)換詞組在所述待轉(zhuǎn)換文本的位置,得到詞組位置集,根據(jù)所述詞組位置集構(gòu)建位置向量集;
組合所述字嵌入向量集及所述位置向量集,得到所述文本編碼向量。
可選地,所述從所述文本編碼向量中提取語(yǔ)義信息,得到語(yǔ)義向量,包括:
構(gòu)建并訓(xùn)練語(yǔ)義提取模型,當(dāng)訓(xùn)練完成時(shí),從所述語(yǔ)義提取模型中提取自注意力計(jì)算機(jī)制;
利用所述自注意力計(jì)算機(jī)制,提取所述文本編碼向量的語(yǔ)義信息,得到所述語(yǔ)義向量。
可選地,所述訓(xùn)練語(yǔ)義提取模型,包括:
獲取訓(xùn)練文本集及語(yǔ)義標(biāo)簽集;
將所述訓(xùn)練文本集輸入至所述語(yǔ)義提取模型中,計(jì)算所述訓(xùn)練文本集中每個(gè)訓(xùn)練文本與其他訓(xùn)練文本的相似度,得到相似度集;
歸一化所述相似度集得到權(quán)重集,利用所述權(quán)重集生成所述訓(xùn)練文本集的編碼向量集;
對(duì)所述編碼向量集及所述訓(xùn)練文本集執(zhí)行解碼操作,得到語(yǔ)義預(yù)測(cè)集;
計(jì)算所述語(yǔ)義預(yù)測(cè)集與所述語(yǔ)義標(biāo)簽集的誤差值,判斷所述誤差值是否在預(yù)設(shè)誤差范圍內(nèi);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011640955.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





