[發(fā)明專利]一種基于跳躍編碼器的并行端到端語音合成方法在審
| 申請?zhí)枺?/td> | 202011599744.1 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112820266A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計(jì))人: | 廖至銓;潘嶸 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/18;G10L25/30 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 陳偉斌 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 跳躍 編碼器 并行 端到端 語音 合成 方法 | ||
本發(fā)明涉及語音合成技術(shù)領(lǐng)域,具體涉及一種基于跳躍編碼器的并行端到端語音合成方法,包括以下步驟:步驟一:將文本與韻律標(biāo)記一起輸入到編碼器模塊;步驟二:將編碼器的輸出輸入到跳躍編碼器,跳過輸出序列中韻律標(biāo)記對應(yīng)時(shí)間步的特征,保留文本內(nèi)容對應(yīng)的隱特征;步驟三:通過FastSpeech的時(shí)長模型對得到的文本隱特征進(jìn)行擴(kuò)充;步驟四:將跳躍編碼器的輸出輸入到FastSpeech基于Transformer的解碼器實(shí)現(xiàn)并行化的解碼,得到合成語音的頻譜特征;步驟五:使用聲碼器將頻譜特征映射為聲音波形,得到合成的語音。本發(fā)明的基于跳躍編碼器的并行端到端語音合成方法,引入了跳躍編碼器,同時(shí)實(shí)現(xiàn)了語音合成系統(tǒng)中高效率以及高自然度的要求。
技術(shù)領(lǐng)域
本發(fā)明涉及語音合成技術(shù)領(lǐng)域,具體涉及一種基于跳躍編碼器的并行端到端語音合成方法。
背景技術(shù)
Text-to-speech語音合成是將輸入的文本轉(zhuǎn)換為標(biāo)準(zhǔn)流暢的人類語音的任務(wù)。語音合成系統(tǒng)的質(zhì)量評價(jià)一般分為以下幾個方面,自然度,魯棒性以及生成語音的準(zhǔn)確性。在實(shí)際的應(yīng)用場景下,整個系統(tǒng)的延遲,計(jì)算復(fù)雜度以及合成耗時(shí)等也都是需要考慮的因素。
傳統(tǒng)的語音合成技術(shù)包括連接法以及統(tǒng)計(jì)參數(shù)法。其中,連接法通過事先錄制好大量的語音,合成時(shí)根據(jù)文本內(nèi)容選取大量的基本單元連接成流暢的語音,然而這種方法對錄制的語音有較高覆蓋率的要求,所建立的數(shù)據(jù)庫也較為龐大,實(shí)際在設(shè)備上使用時(shí)往往會受到設(shè)備容量的限制;統(tǒng)計(jì)參數(shù)法則是根據(jù)統(tǒng)計(jì)模型來建立文本特征到聲學(xué)特征的映射,再用這些聲學(xué)特征還原成波形,此類方法不需要事先錄制語音,但是合成語音的質(zhì)量偏低。這些傳統(tǒng)方法都是基于聲學(xué)特征的分析以及合成來實(shí)現(xiàn),這些方法由于具備魯棒性強(qiáng)以及準(zhǔn)確性強(qiáng)的特點(diǎn),在工業(yè)界被較為廣泛地使用。然而,這些方法共通的缺點(diǎn)是合成的語音在自然度上缺陷較大。
近些年來,隨著深度學(xué)習(xí)的發(fā)展,端到端的語音合成方法越來越多,比起傳統(tǒng)方法,端到端的語音合成能得到更具備自然度的語音,同時(shí)因?yàn)橹苯咏N谋拘畔⒌筋l譜的映射,大幅簡化了合成的流程。現(xiàn)階段,主流的端到端的語音合成方法有兩類。一類是基于Google提出的Tacotron 2。Tacotron 2基于sequence-to-sequence模型進(jìn)行設(shè)計(jì),分為編碼器和解碼器兩個模塊,其中編碼器主要由雙向LSTM組成,負(fù)責(zé)將文本內(nèi)容編碼為蘊(yùn)含上下文信息的隱特征,解碼器部分則是自回歸的形式,同樣以LSTM單元為主,在每一個時(shí)間步考慮上一時(shí)間步的頻譜輸出,同時(shí)使用注意力機(jī)制對編碼器輸出的隱特征進(jìn)行加權(quán)求和,綜合得到當(dāng)前時(shí)間步的頻譜輸出;另一類是基于微軟浙大聯(lián)合提出的FastSpeech,同樣主要由編碼器和解碼器兩個模塊構(gòu)成,兩個模塊均使用了Transformer的結(jié)構(gòu),由多個堆疊的自注意力層組成,特別地,解碼器部分為非自回歸結(jié)構(gòu),通過時(shí)長模型對齊編碼器輸出與解碼器輸入,實(shí)現(xiàn)了并行解碼。兩類模型在結(jié)構(gòu)上的差異導(dǎo)致了效率效果的差異,基于Tacotron 2的方法由于自回歸的結(jié)構(gòu),合成語音在自然度上更好,但是難以實(shí)現(xiàn)計(jì)算的并行,導(dǎo)致合成的效率較低;基于FastSpeech的方法由于非自回歸的結(jié)構(gòu),在GPU環(huán)境下合成效率能提升兩個數(shù)量級,然而語音的自然度不如基于Tacotron 2的方法。
韻律,指的是文本中蘊(yùn)含的除文本內(nèi)容之外的信息,包括語調(diào)、重音、節(jié)奏以及說話的風(fēng)格。在中文text-to-speech語音合成系統(tǒng)中,韻律對自然度有很大的影響。因此,在中文的合成系統(tǒng)中,除了文本信息之外,往往還會在文本之間插入表示韻律詞,韻律短語,語調(diào)短語的標(biāo)記,讓合成的語音更具備韻律感。在中文語音合成的場景中應(yīng)用上述兩類方法時(shí)會面臨一些問題。中國專利CN111739508A公開了一種基于DNN-HMM雙模態(tài)對齊網(wǎng)絡(luò)的端到端語音合成方法及系統(tǒng),該方法為基于Tacotron2的方法,可以學(xué)習(xí)到較好的韻律,但是無法實(shí)現(xiàn)計(jì)算的并行;而基于FastSpeech的方法則因?yàn)闊o法對韻律標(biāo)記應(yīng)用時(shí)長模型,導(dǎo)致合成語音韻律感較差。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)所存在的缺陷,本發(fā)明提供了一種基于跳躍編碼器的并行端到端語音合成方法,引入了跳躍編碼器,同時(shí)實(shí)現(xiàn)了語音合成系統(tǒng)中高效率以及高自然度的要求。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011599744.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置、信息記錄介質(zhì)和計(jì)算機(jī)程序
- 光盤驅(qū)動裝置及其光頭跳躍控制方法與裝置
- 用于經(jīng)由芯片內(nèi)和芯片間跳躍總線在片上系統(tǒng)之內(nèi)和之間傳送信息的方法和裝置
- 用于檢測和校正實(shí)時(shí)PCR信號中的跳躍的方法和系統(tǒng)
- 基于VCU的列車跳躍控制、跳躍對標(biāo)停車及動態(tài)測試方法
- 信息處理程序、終端裝置和信息處理方法
- 一種寵物運(yùn)動跳躍箱
- 一種聯(lián)鎖及列車跳躍方法
- 一種健美操跳躍訓(xùn)練裝置
- 一種新型幼兒動作發(fā)展情況檢查用檢測模型結(jié)構(gòu)
- 簡單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)





