[發(fā)明專利]一種混合語(yǔ)言語(yǔ)音合成方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710582572.9 | 申請(qǐng)日: | 2017-07-17 |
| 公開(公告)號(hào): | CN107481713B | 公開(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計(jì))人: | 王東;張之勇 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué);北京孚睿星辰智能科技有限責(zé)任公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/04;G10L15/07 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王瑩;曹杰 |
| 地址: | 100084 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 混合 語(yǔ)言 語(yǔ)音 合成 方法 裝置 | ||
本發(fā)明公開一種混合語(yǔ)言語(yǔ)音合成方法及裝置。其中,所述方法包括:獲取待合成文本,并提取所述待合成文本的語(yǔ)言學(xué)特征向量;獲取特定說話人的語(yǔ)音數(shù)據(jù),并根據(jù)所述特定說話人的語(yǔ)音數(shù)據(jù)提取所述特定說話人的說話人向量;將所述待合成文本的語(yǔ)言學(xué)特征向量和所述特定說話人的說話人向量進(jìn)行拼接,獲得所述待合成文本的語(yǔ)音合成輸入向量;根據(jù)所述待合成文本的語(yǔ)音合成輸入向量和預(yù)先建立的混合語(yǔ)言語(yǔ)音合成模型,獲得所述待合成文本的特定說話人的合成語(yǔ)音。所述裝置用于執(zhí)行上述方法。本發(fā)明提供的混合語(yǔ)言語(yǔ)音合成方法及裝置,能夠?qū)崿F(xiàn)語(yǔ)音合成說話人的快速更改與混合語(yǔ)言語(yǔ)音合成,提高混合語(yǔ)言語(yǔ)音合成的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,具體涉及一種混合語(yǔ)言語(yǔ)音合成方法及裝置。
背景技術(shù)
語(yǔ)音合成技術(shù)是將文本轉(zhuǎn)化成聲音的技術(shù),混合語(yǔ)言語(yǔ)音合成是指待合成文本中存在多種語(yǔ)言,將多種語(yǔ)言的文本轉(zhuǎn)化成相應(yīng)的語(yǔ)音。
圖1為傳統(tǒng)的混合語(yǔ)言語(yǔ)音合成的過程的示意圖,如圖1所示,在進(jìn)行混合語(yǔ)言語(yǔ)音合成時(shí)需要預(yù)先建立混合語(yǔ)言語(yǔ)音合成的聲學(xué)模型,在建立上述聲學(xué)模型時(shí),需要對(duì)混合語(yǔ)言語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本進(jìn)行語(yǔ)言學(xué)分析并提取出語(yǔ)言學(xué)特征參數(shù),包括音素、音節(jié)、字、詞及句子等不同層面的位置、數(shù)量、詞性、音調(diào)和上下文,同時(shí)對(duì)混合語(yǔ)言語(yǔ)音數(shù)據(jù)進(jìn)行分析,提取出語(yǔ)音學(xué)特征參數(shù),包括基頻、非周期信息和頻譜。然后將獲得的語(yǔ)言學(xué)特征參數(shù)輸入到訓(xùn)練模型中,上述模型可以是遞歸神經(jīng)網(wǎng)絡(luò)模型,獲得預(yù)測(cè)的基頻、非周期信息和頻譜聲學(xué)特征,將預(yù)測(cè)的基頻、非周期信息和頻譜聲學(xué)特征與上述語(yǔ)音學(xué)特征參數(shù)進(jìn)行對(duì)比,通過模型訓(xùn)練算法,例如梯度更新算法,迭代優(yōu)化訓(xùn)練模型直至其收斂,獲得混合語(yǔ)言語(yǔ)音合成的聲學(xué)模型。
在對(duì)待合成文本進(jìn)行語(yǔ)音合成時(shí),上述待合成文本執(zhí)行與模型訓(xùn)練時(shí)對(duì)文本數(shù)據(jù)同樣的處理過程提取對(duì)應(yīng)的語(yǔ)言學(xué)特征參數(shù),將上述語(yǔ)言學(xué)特征參數(shù)輸入到已經(jīng)建立的聲學(xué)模型中,即可得到待合成文本的合成語(yǔ)音。在模型訓(xùn)練時(shí),采用的說話人,即為上述混合語(yǔ)言文本對(duì)應(yīng)的語(yǔ)音的說話人,當(dāng)需要更改說話人時(shí),需要更改的說話人的大量的混合語(yǔ)言語(yǔ)音數(shù)據(jù)對(duì)上述聲學(xué)模型進(jìn)行重新訓(xùn)練,在實(shí)際操作中,較長(zhǎng)時(shí)間的混合語(yǔ)言語(yǔ)音數(shù)據(jù)的錄制無(wú)論對(duì)于錄制人還是后期的處理工作都是耗時(shí)耗力。尤其是,考慮到現(xiàn)今全世界現(xiàn)存語(yǔ)言大約有6900種,找到能講多種語(yǔ)言的發(fā)音人有時(shí)是很困難的。
因此,如何提出一種混合語(yǔ)言語(yǔ)音合成方法,能夠?qū)崿F(xiàn)語(yǔ)音合成說話人的快速更改與混合語(yǔ)言語(yǔ)音合成,提高混合語(yǔ)言語(yǔ)音合成的效率,成為業(yè)界亟待解決的重要課題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種混合語(yǔ)言語(yǔ)音合成方法及裝置。
一方面,本發(fā)明提出一種混合語(yǔ)言語(yǔ)音合成方法,包括:
獲取待合成文本,并提取所述待合成文本的語(yǔ)言學(xué)特征向量;
獲取特定說話人的語(yǔ)音數(shù)據(jù),并根據(jù)所述特定說話人的語(yǔ)音數(shù)據(jù)提取所述特定說話人的說話人向量;
將所述待合成文本的語(yǔ)言學(xué)特征向量和所述特定說話人的說話人向量進(jìn)行拼接,獲得所述待合成文本的語(yǔ)音合成輸入向量;
將所述待合成文本的語(yǔ)音合成輸入向量輸入到預(yù)先建立的混合語(yǔ)言語(yǔ)音合成模型中,獲得所述待合成文本的特定說話人的合成語(yǔ)音合成語(yǔ)音。
另一方面,本發(fā)明提供一種混合語(yǔ)言語(yǔ)音合成裝置,包括:
第一提取單元,用于獲取待合成文本,并提取所述待合成文本的語(yǔ)言學(xué)特征向量;
第二提取單元,用于獲取特定說話人的語(yǔ)音數(shù)據(jù),并根據(jù)所述特定說話人的語(yǔ)音數(shù)據(jù)提取所述特定說話人的說話人向量;
拼接單元,用于將所述待合成文本的語(yǔ)言學(xué)特征向量和所述特定說話人的說話人向量進(jìn)行拼接,獲得所述待合成文本的語(yǔ)音合成輸入向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué);北京孚睿星辰智能科技有限責(zé)任公司,未經(jīng)清華大學(xué);北京孚睿星辰智能科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710582572.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:消聲器
- 下一篇:一種紙質(zhì)文本音頻化與播放系統(tǒng)
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





