[發(fā)明專利]一種合成語(yǔ)音與文本對(duì)齊的方法、裝置及計(jì)算機(jī)儲(chǔ)存介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011313327.6 | 申請(qǐng)日: | 2020-11-20 |
| 公開(公告)號(hào): | CN112420016B | 公開(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 王昆;朱海;周琳岷;劉書君 | 申請(qǐng)(專利權(quán))人: | 四川長(zhǎng)虹電器股份有限公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/08;G10L15/02;G10L15/26 |
| 代理公司: | 四川省成都市天策商標(biāo)專利事務(wù)所(有限合伙) 51213 | 代理人: | 陳藝文 |
| 地址: | 621000 四*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 合成 語(yǔ)音 文本 對(duì)齊 方法 裝置 計(jì)算機(jī) 儲(chǔ)存 介質(zhì) | ||
本發(fā)明公開了一種合成語(yǔ)音與文本對(duì)齊的方法、裝置及計(jì)算機(jī)儲(chǔ)存介質(zhì),其中方法包括:在待合成文本的每個(gè)字后面加入位置標(biāo)簽;對(duì)帶位置標(biāo)簽的文本進(jìn)行文本預(yù)處理及音素轉(zhuǎn)換得到音素序列;將音素序列輸入語(yǔ)音合成模型,預(yù)測(cè)音素的時(shí)長(zhǎng)信息和聲學(xué)特征;將聲學(xué)特征通過(guò)聲碼器轉(zhuǎn)換為合成語(yǔ)音;累加位于每個(gè)位置標(biāo)簽前面音素的時(shí)長(zhǎng)信息,得到每個(gè)位置標(biāo)簽在合成語(yǔ)音中的時(shí)間信息。本發(fā)明通過(guò)在待合成文本中加入位置標(biāo)簽,在文本處理中保持位置標(biāo)簽的相對(duì)位置,利用語(yǔ)音合成模型的中間輸出結(jié)果以極小的成本,實(shí)現(xiàn)了合成音頻與待合成文本之間的字符級(jí)別的對(duì)齊。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音合成技術(shù)領(lǐng)域,尤其涉及一種合成語(yǔ)音與文本對(duì)齊的方法、裝置及計(jì)算機(jī)儲(chǔ)存介質(zhì)。
背景技術(shù)
語(yǔ)音交互是一種自然的人機(jī)交互技術(shù),該技術(shù)涉及語(yǔ)音識(shí)別(ASR)、自然語(yǔ)言理解(NLP)、語(yǔ)音合成(TTS)等眾多技術(shù),語(yǔ)音合成直接影響用戶的聽覺(jué)體驗(yàn),其效果好壞直接影響用戶的“第一印象”,一直是學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用的研究重點(diǎn)。語(yǔ)音合成發(fā)展過(guò)程中,經(jīng)歷了拼接法、參數(shù)合成法及端到端為主的語(yǔ)音合成方法。端到端方法能獲得更高的合成語(yǔ)音質(zhì)量,但合成語(yǔ)音的過(guò)程難以精確控制。
語(yǔ)音和文本的對(duì)齊,是指為每個(gè)字的發(fā)音在音頻中標(biāo)注起止時(shí)間信息。這些信息一般是通過(guò)人工標(biāo)注,或者半自動(dòng)標(biāo)注,先通過(guò)強(qiáng)制對(duì)齊算法預(yù)標(biāo)注,再由人工調(diào)整的方法獲得,通常用于語(yǔ)音合成模型的訓(xùn)練。語(yǔ)音和文本的對(duì)齊有很多應(yīng)用,如音樂(lè)播放過(guò)程中,音樂(lè)播放和歌詞同步,點(diǎn)讀系統(tǒng)等。
在語(yǔ)音合成系統(tǒng)中,長(zhǎng)句子通常通過(guò)拆分成短句進(jìn)行合成,拼接得到最終的音頻,這種方式可以句子級(jí)別的對(duì)齊信息,如哪句文本對(duì)應(yīng)哪段語(yǔ)音,但沒(méi)有詞語(yǔ)、字級(jí)別的更細(xì)力度的對(duì)齊信息。要獲得更小粒度的對(duì)齊信息,可以通過(guò)強(qiáng)制對(duì)齊技術(shù)進(jìn)行訓(xùn)練,但時(shí)間成本較高,且存在對(duì)齊失敗的情況。另一方面,語(yǔ)音合成中,待合成文本通常需要規(guī)范化,替換掉一些書寫和發(fā)音不一致的情況,如特殊符號(hào)、特殊字符、數(shù)字等。原始文本與規(guī)范化后的文本通常不存在簡(jiǎn)單一致的對(duì)應(yīng)關(guān)系,在音素轉(zhuǎn)換中,轉(zhuǎn)換前后的文本序列和音素序列也不存在一致的對(duì)應(yīng)關(guān)系,故難以獲取字級(jí)別的語(yǔ)音和文本對(duì)齊信息。
發(fā)明內(nèi)容
本發(fā)明提供了一種合成語(yǔ)音與文本對(duì)齊的方法、裝置及計(jì)算機(jī)儲(chǔ)存介質(zhì),以解決上述現(xiàn)有技術(shù)中存在的問(wèn)題。
本發(fā)明采用的技術(shù)方案是:提供一種合成語(yǔ)音與文本對(duì)齊的方法,包括:
在待合成文本的每個(gè)字后面加入位置標(biāo)簽;
對(duì)帶位置標(biāo)簽的文本進(jìn)行文本預(yù)處理及音素轉(zhuǎn)換得到音素序列;
將音素序列輸入語(yǔ)音合成模型,預(yù)測(cè)音素的時(shí)長(zhǎng)信息和聲學(xué)特征;
將聲學(xué)特征通過(guò)聲碼器轉(zhuǎn)換為合成語(yǔ)音;
累加位于每個(gè)位置標(biāo)簽前面音素的時(shí)長(zhǎng)信息,得到每個(gè)位置標(biāo)簽在合成語(yǔ)音中的時(shí)間信息。
優(yōu)選地,所述對(duì)帶位置標(biāo)簽的文本進(jìn)行文本預(yù)處理的方法,包括:對(duì)帶位置標(biāo)簽的文本中的非法字符進(jìn)行剔除、文本規(guī)則化以及韻律預(yù)測(cè),在進(jìn)行文本預(yù)處理過(guò)程中,保持位置標(biāo)簽在序列中的相對(duì)位置。
優(yōu)選地,所述對(duì)帶位置標(biāo)簽的文本進(jìn)行音素轉(zhuǎn)換方法,包括:采用漢字轉(zhuǎn)拼音,拼音拆分成聲韻母音素的轉(zhuǎn)換方法,在進(jìn)行音素轉(zhuǎn)換過(guò)程中,保持位置標(biāo)簽在序列中的相對(duì)位置。
優(yōu)選地,所述將音素序列輸入語(yǔ)音合成模型,預(yù)測(cè)音素的時(shí)長(zhǎng)信息和聲學(xué)特征的方法,包括:將所述音素序列中的位置標(biāo)簽剔除,并將音素序列編碼為數(shù)字序列,輸入語(yǔ)音合成模型;語(yǔ)音合成模型進(jìn)行前向運(yùn)算,輸出時(shí)長(zhǎng)信息序列和聲學(xué)特征序列。
優(yōu)選地,所述將音素序列輸入語(yǔ)音合成模型,預(yù)測(cè)音素的時(shí)長(zhǎng)信息和聲學(xué)特征之前,還包括:對(duì)所述語(yǔ)音合成模型的制作。
優(yōu)選地,所述語(yǔ)音合成模型的制作包括訓(xùn)練數(shù)據(jù)獲取、輸入輸出特征提取、模型設(shè)計(jì)及模型訓(xùn)練;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長(zhǎng)虹電器股份有限公司,未經(jīng)四川長(zhǎng)虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011313327.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





