[發(fā)明專利]語音合成方法及裝置在審
| 申請?zhí)枺?/td> | 202011266074.1 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112420017A | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設(shè)計)人: | 滿達(dá) | 申請(專利權(quán))人: | 北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 趙婷 |
| 地址: | 100176 北京市大興區(qū)北京經(jīng)濟(jì)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 方法 裝置 | ||
本公開提供了一種語音合成方法,本方法包括:接收來自用戶終端的語音服務(wù)請求;確定與所述語音服務(wù)請求關(guān)聯(lián)的待處理語料;確定針對所述待處理語料的文本特征,所述文本特征包括音素序列和音律特征;基于所述文本特征,確定針對所述待處理語料的聲學(xué)特征;基于所述文本特征和所述聲學(xué)特征,進(jìn)行針對所述待處理語料的語音合成;將語音合成結(jié)果返回所述用戶終端。本公開還提供了一種語音合成裝置、一種電子設(shè)備及一種計算機(jī)可讀存儲介質(zhì)。
技術(shù)領(lǐng)域
本公開涉及人工智能領(lǐng)域,更具體地,涉及一種語音合成方法、一種語音合成裝置、一種電子設(shè)備以及一種計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
隨著計算機(jī)技術(shù)的日益成熟,人工智能領(lǐng)域得以迅速發(fā)展,語音合成在人工智能領(lǐng)域中具有重要作用。隨著人工智能技術(shù)的滲透,人們對語音合成服務(wù)的需求越來越高。
在實現(xiàn)本發(fā)明公開構(gòu)思過程中,發(fā)明人發(fā)現(xiàn)由于不同平臺的操作系統(tǒng)和軟件環(huán)境不同,需要針對不同平臺設(shè)計對應(yīng)的語音合成工具;并且,由于不同用戶終端的硬件環(huán)境和配置參數(shù)不同,相同語音合成工具在不同用戶終端中的運行性能可能不同。這一方面提高了語音合成工具的開發(fā)成本,另一方面影響了語音合成工具的使用性能。
發(fā)明內(nèi)容
有鑒于此,本公開提供了一種開發(fā)成本低、通用性強(qiáng)、語音合成效果穩(wěn)定的語音合成方法及裝置。
本公開的一個方面提供了一種語音合成方法,應(yīng)用于語音合成引擎,包括:接收來自用戶終端的語音服務(wù)請求;確定與上述語音服務(wù)請求關(guān)聯(lián)的待處理語料;確定針對上述待處理語料的文本特征,上述文本特征包括音素序列和音律特征;基于上述文本特征,確定針對上述待處理語料的聲學(xué)特征;基于上述文本特征和上述聲學(xué)特征,進(jìn)行針對上述待處理語料的語音合成;將語音合成結(jié)果返回上述用戶終端。
可選地,上述接收來自用戶終端的語音服務(wù)請求,包括:通過預(yù)設(shè)通信鏈路接收上述語音服務(wù)請求,上述預(yù)設(shè)通信鏈路支持離線數(shù)據(jù)傳輸。
可選地,上述確定針對上述待處理語料的文本特征,包括:獲得針對上述待處理語料的分詞序列;確定與上述分詞序列關(guān)聯(lián)的音素序列;利用預(yù)設(shè)的音律結(jié)構(gòu)模型,確定上述音素序列中的各音素的發(fā)音時長,以得到上述音律特征。
可選地,上述利用預(yù)設(shè)的音律結(jié)構(gòu)模型,確定上述音素序列中的各音素的發(fā)音時長,以得到上述音律特征,包括:將上述音素序列輸入上述音律結(jié)構(gòu)模型,確定與上述音素序列關(guān)聯(lián)的至少一個音律結(jié)構(gòu),其中,上述音律結(jié)構(gòu)包括音律詞結(jié)構(gòu)、音律短語結(jié)構(gòu)和語義短語結(jié)構(gòu)中的至少之一;根據(jù)音律結(jié)構(gòu)與停頓時長的預(yù)設(shè)關(guān)聯(lián)關(guān)系,確定針對各上述音律結(jié)構(gòu)的停頓時長;根據(jù)針對各上述音律結(jié)構(gòu)的停頓時長,確定上述音素序列中的各音素的發(fā)音時長,以得到上述音律特征。
可選地,上述基于上述文本特征,確定針對上述待處理語料的聲學(xué)特征,包括:根據(jù)上述音律特征指示的各音素的發(fā)音時長,將上述各音素轉(zhuǎn)換為幀序列單元;利用預(yù)設(shè)的聲學(xué)特征模型,確定與各上述幀序列單元關(guān)聯(lián)的聲學(xué)特征,以得到針對上述待處理語料的聲學(xué)特征。
可選地,上述聲學(xué)特征模型包括:基于通用樣本數(shù)據(jù)訓(xùn)練得到的基礎(chǔ)聲學(xué)模型,和/或利用個性化樣本數(shù)據(jù)對上述基礎(chǔ)聲學(xué)模型訓(xùn)練得到的個性化聲學(xué)模型,其中,上述通用樣本數(shù)據(jù)包括至少一個用戶的語音和/或語料樣本,上述個性化樣本數(shù)據(jù)包括預(yù)設(shè)用戶的語音和/或語料樣本。
可選地,上述聲學(xué)特征包括譜特征、基頻特征、能量特征和非周期特征中的至少之一。
本公開的另一個方面提供了一種語音合成裝置,包括接收模塊,用于接收來自用戶終端的語音服務(wù)請求;第一處理模塊,用于確定與上述語音服務(wù)請求關(guān)聯(lián)的待處理語料;第二處理模塊,用于確定針對上述待處理語料的文本特征,上述文本特征包括音素序列和音律特征;第三處理模塊,用于基于上述文本特征,確定針對上述待處理語料的聲學(xué)特征;第四處理模塊,用于基于上述文本特征和上述聲學(xué)特征,進(jìn)行針對上述待處理語料的語音合成;發(fā)送模塊,用于將語音合成結(jié)果返回上述用戶終端。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011266074.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





