[發(fā)明專利]一種基于音向量文本特征的語音合成方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610000677.4 | 申請(qǐng)日: | 2016-01-04 |
| 公開(公告)號(hào): | CN105654939B | 公開(公告)日: | 2019-09-13 |
| 發(fā)明(設(shè)計(jì))人: | 徐明星;車浩 | 申請(qǐng)(專利權(quán))人: | 極限元(杭州)智能科技股份有限公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/08;G10L17/04;G10L17/02 |
| 代理公司: | 北京志霖恒遠(yuǎn)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11435 | 代理人: | 王雨桐 |
| 地址: | 310000 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 向量 文本 特征 語音 合成 方法 | ||
本發(fā)明公開了一種基于音向量文本特征的語音合成方法,文本分析模塊接收輸入文本,對(duì)文本特征進(jìn)行規(guī)則化處理,將得到的文本數(shù)據(jù)輸送至文本參數(shù)化模塊,采用一位熱碼編碼方法得到參數(shù)化的文本;音向量訓(xùn)練模塊接收參數(shù)化的文本,訓(xùn)練基于音向量的語言模型,然后輸送至語音參數(shù)訓(xùn)練模塊訓(xùn)練從文本到語音參數(shù)的映射模型;音向量生成模塊通過接收文本參數(shù)化模塊和音向量訓(xùn)練模塊的輸出文本,生成文本數(shù)據(jù)的音向量;文本數(shù)據(jù)的音向量和文本到語音參數(shù)的映射模型輸送至語音參數(shù)預(yù)測(cè)模塊,得到音向量所對(duì)應(yīng)的語音參數(shù);最終由語音合成器模塊合成語音。本發(fā)明提高了語音合成系統(tǒng)建模的準(zhǔn)確性;大大降低了系統(tǒng)實(shí)現(xiàn)的復(fù)雜度和人工參與程度。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音合成方法,尤其涉及一種基于音向量文本特征的語音合成方法。
背景技術(shù)
語音合成技術(shù)能讓計(jì)算機(jī)產(chǎn)生高清晰度、高自然度的連續(xù)語音,使人機(jī)交流更加和諧自然。在語音合成技術(shù)的發(fā)展過程中,早期的研究主要是采用基于單元波形拼接的語音合成方法,但該方法在拼接點(diǎn)處會(huì)出現(xiàn)語音失真和突變。近年來,基于統(tǒng)計(jì)參數(shù)的語音合成方法因?yàn)楹铣上到y(tǒng)構(gòu)建較快,語料庫尺寸需求小,合成語音平滑流暢而得到了快速的發(fā)展,但該方法仍存在以下兩點(diǎn)不足之處:
1、文本特征的描述不夠精確,需要很大的人力物力去標(biāo)注文本,而且標(biāo)注結(jié)果很大一部分依賴于標(biāo)注人員的經(jīng)驗(yàn)和背景知識(shí),需要專業(yè)人員去完成,很大程序上影響了系統(tǒng)的構(gòu)建速度;
2、合成語音的音質(zhì)跟真人還有很大的差距,特別是采用語音的參數(shù)化描述和統(tǒng)計(jì)建模的語音分析合成模型不夠理想,對(duì)語音的建模不夠精確;另外,采用統(tǒng)計(jì)參數(shù)建模,生成的譜參數(shù)軌跡和基頻軌跡都過于平滑,合成語音在聽感上顯得過于平淡。
發(fā)明內(nèi)容
為了解決上述技術(shù)所存在的不足之處,本發(fā)明提供了一種基于音向量文本特征的語音合成方法。
為了解決以上技術(shù)問題,本發(fā)明采用的技術(shù)方案是:一種基于音向量文本特征的語音合成方法,包括以下步驟:
步驟一:通過文本分析模塊接收待分析的輸入文本,對(duì)文本特征進(jìn)行規(guī)則化處理,去掉文本中多余的符號(hào),標(biāo)注出每個(gè)音節(jié)的聲韻母和聲調(diào),糾正多音字發(fā)音錯(cuò)誤,得到輸入文本對(duì)應(yīng)的發(fā)音單元序列;
步驟二:通過文本參數(shù)化模塊接收上述輸入文本對(duì)應(yīng)的發(fā)音單元序列,采用一位熱碼編碼表示方法得到每個(gè)音節(jié)的參數(shù)化表示的向量;
公式Ⅰ為一位熱碼編碼表示方法;其中,S為音節(jié)的參數(shù)化向量,Cv為一個(gè)描述聲韻母音向量的共享矩陣,維數(shù)為V×N,v為聲韻母的個(gè)數(shù),N為聲韻母音向量的維數(shù),Vi為聲母音向量,Vf為韻母音向量;
步驟三:通過音向量訓(xùn)練模塊接收上述參數(shù)化表示的向量,訓(xùn)練基于音向量的語言模型,得到文本的音向量表示;
步驟四:通過語音參數(shù)訓(xùn)練模塊接收上述文本的音向量表示,訓(xùn)練從文本到語音參數(shù)的映射模型,建立音向量與語音參數(shù)、音向量與韻律特征參數(shù)的映射關(guān)系;
步驟五:通過音向量生成模塊接收上述文本參數(shù)化模塊得到的參數(shù)化的文本特征以及音向量訓(xùn)練模塊得到的文本的音向量,生成分析完成的文本數(shù)據(jù)的音向量;
步驟六:通過語音參數(shù)預(yù)測(cè)模塊接收上述分析完成的文本數(shù)據(jù)的音向量以及語音參數(shù)訓(xùn)練模塊得到的映射模型,通過建立音向量與語音參數(shù)之間的映射關(guān)系,得到音向量所對(duì)應(yīng)的語音參數(shù);
步驟七:通過語音合成器模塊接收上述音向量所對(duì)應(yīng)的語音參數(shù)最終合成語音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于極限元(杭州)智能科技股份有限公司,未經(jīng)極限元(杭州)智能科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610000677.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L13-00 語音合成;文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法;語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生,例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





