[發(fā)明專利]支持多說話人風(fēng)格、語言切換且韻律可控的語音合成裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110008049.1 | 申請(qǐng)日: | 2021-01-05 |
| 公開(公告)號(hào): | CN112863483B | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 盛樂園 | 申請(qǐng)(專利權(quán))人: | 杭州一知智能科技有限公司 |
| 主分類號(hào): | G10L13/10 | 分類號(hào): | G10L13/10;G10L19/02;G10L19/26;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 311200 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 支持 說話 風(fēng)格 語言 切換 韻律 可控 語音 合成 裝置 | ||
本發(fā)明公開了一種支持多說話人風(fēng)格、語言切換且韻律可控的語音合成裝置,屬于語音合成領(lǐng)域。包括:文本獲取單元和文本預(yù)處理單元,其用于獲取不同的文本數(shù)據(jù)并進(jìn)行預(yù)處理;語言切換單元,其用于存儲(chǔ)并展示不同語言類型的訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的說話人標(biāo)簽,并且自動(dòng)識(shí)別待合成文本的語言類型;風(fēng)格切換單元,其用于根據(jù)語言類型指定語音合成風(fēng)格;說話人切換單元,其用于指定說話人;編碼?解碼單元,其用于獲得預(yù)測(cè)梅爾頻譜;訓(xùn)練單元,其用于對(duì)編碼?解碼單元進(jìn)行訓(xùn)練;語音合成單元,其用于根據(jù)生成預(yù)測(cè)梅爾頻譜,并轉(zhuǎn)化為聲音信號(hào)進(jìn)行語音播放。本發(fā)明能夠在產(chǎn)生韻律變化更加豐富的語音的同時(shí)可以對(duì)說話人和說話人風(fēng)格的進(jìn)行分別控制。
技術(shù)領(lǐng)域
本發(fā)明屬于語音合成領(lǐng)域,尤其涉及一種支持多說話人風(fēng)格、語言切換且韻律可控的語音合成裝置。
背景技術(shù)
近年來隨著深度學(xué)習(xí)的發(fā)展,語音合成技術(shù)也得到了很大程度上的提高。語音合成從傳統(tǒng)的參數(shù)法和拼接法走向了端到端的方式。它們通常是先由文本特征生成梅爾頻譜,然后將梅爾頻譜利用聲碼器像來合成語音。這些端到端的方法按照結(jié)構(gòu)可以分為自回歸的模型和非自回歸的模型。自回歸的模型通常采用編碼器-注意力-解碼器(Encoder-Attention-Decoder)機(jī)制進(jìn)行自回歸生成:要生成當(dāng)前數(shù)據(jù)點(diǎn),必須生成時(shí)間序列里前面的所有數(shù)據(jù)點(diǎn)作為模型輸入,像Taoctron,Taoctron 2,Deep voice 3,Clarinet,Tansformer TTS。盡管自回歸的模型能夠生成令人滿意的結(jié)果,但是如果Attention產(chǎn)生的注意力不夠好,則可能會(huì)導(dǎo)致合成的語音中有重復(fù)或者漏字的現(xiàn)象。非自回歸的模型能夠并行化的由文本特征生成梅爾頻譜,生成的速度要比自回歸的模型快很多,像ParaNet,F(xiàn)astspeech,Aligntts,Fastspeech 2。
現(xiàn)有的語音合成方法對(duì)合成語音的控制單一,無法針對(duì)多種語言的混合語音進(jìn)行合成,更無法對(duì)多說話人的風(fēng)格進(jìn)行解耦分離,應(yīng)用到其他說話人上。
因此,如何能夠在既保證韻律可控的基礎(chǔ)上,使得語音合成系統(tǒng)支持多說話人,并且可以對(duì)說話人的風(fēng)格進(jìn)行解耦分離應(yīng)用到其他說話人之上,仍是計(jì)算機(jī)智能語音合成領(lǐng)域內(nèi)尚未解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問題,一方面在韻律標(biāo)注的文本、時(shí)長(zhǎng)、能量和音高,四個(gè)特征對(duì)合成語音的韻律進(jìn)行控制。另外一方面,可以支持?jǐn)?shù)據(jù)集中只說一種語言的具有說兩種語言的能力,進(jìn)行語言的遷移,也可以將多說話人的風(fēng)格從說話人的特征解耦出來,應(yīng)用到其他說話人中,進(jìn)行說話人風(fēng)格的遷移。本發(fā)明通過對(duì)語音合成模型的優(yōu)化,克服了語言和說話人風(fēng)格對(duì)其他說話人的限制,實(shí)現(xiàn)了多說話人多語言風(fēng)格可分離的、韻律可全面控制語音合成系統(tǒng)。
為了實(shí)現(xiàn)上述目的,本發(fā)明所采用的具體技術(shù)方案是:
一種支持多說話人風(fēng)格、語言切換且韻律可控的語音合成裝置,包括:
文本獲取單元,其用于根據(jù)語音合成裝置所處的模式獲取不同的文本數(shù)據(jù),包括在訓(xùn)練模式時(shí)獲取帶韻律標(biāo)簽的混合訓(xùn)練文本及對(duì)應(yīng)的標(biāo)準(zhǔn)語音音頻,并標(biāo)記每一條標(biāo)準(zhǔn)語音音頻的說話人標(biāo)簽;在預(yù)測(cè)模式時(shí)獲取待合成文本;
文本預(yù)處理單元,其用于將文本轉(zhuǎn)化為帶韻律標(biāo)簽的音素序列,并且在訓(xùn)練模式時(shí),還要根據(jù)文本對(duì)應(yīng)的標(biāo)準(zhǔn)語音音頻輸出真實(shí)的梅爾頻譜、真實(shí)的能量、真實(shí)的音高、真實(shí)的時(shí)長(zhǎng)和對(duì)應(yīng)的說話人標(biāo)簽;
語言切換單元,其用于存儲(chǔ)并展示不同語言類型的訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的說話人標(biāo)簽,并且自動(dòng)識(shí)別待合成文本的語言類型;
風(fēng)格切換單元,其用于讀取語言切換單元展示的文本的語言類型,根據(jù)語言類型設(shè)定第一說話人標(biāo)簽作為語音合成風(fēng)格;
說話人切換單元,其用于設(shè)定第二說話人標(biāo)簽作為指定說話人;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州一知智能科技有限公司,未經(jīng)杭州一知智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110008049.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L13-00 語音合成;文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法;語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生,例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 基于事先知識(shí)的說話者檢驗(yàn)及說話者識(shí)別系統(tǒng)和方法
- 說話人聲音的后臺(tái)學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說話人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語音合成字典生成裝置和語音合成字典生成方法
- 說話人識(shí)別方法和說話人識(shí)別設(shè)備
- 語音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說話人條件下目標(biāo)說話人語音提取方法
- 一種語音處理方法、介質(zhì)及系統(tǒng)
- 語音翻譯裝置、語音翻譯方法以及記錄介質(zhì)
- 說話人識(shí)別方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 圖像風(fēng)格化重建的方法和裝置
- 風(fēng)格化輸入圖像
- 圖像風(fēng)格遷移方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 終端應(yīng)用風(fēng)格切換、控制方法、顯示終端、服務(wù)器及系統(tǒng)
- 圖片風(fēng)格轉(zhuǎn)換方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種面向視頻的非均勻風(fēng)格遷移方法
- 一種面向圖像的非均勻風(fēng)格遷移方法
- 圖像處理方法、遷移模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備
- 一種進(jìn)風(fēng)格柵及空調(diào)器
- 一種基于風(fēng)格與內(nèi)容解耦的圖像風(fēng)格遷移方法
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





