[發(fā)明專利]個(gè)性化語音合成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201911340068.3 | 申請(qǐng)日: | 2019-12-23 |
| 公開(公告)號(hào): | CN111161702B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設(shè)計(jì))人: | 張堅(jiān);張坤雷;陳學(xué)文 | 申請(qǐng)(專利權(quán))人: | 愛馳汽車有限公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/08;G10L19/16;G10L25/12;G10L25/30;G10L25/24 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
| 地址: | 334000 江西省*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 個(gè)性化 語音 合成 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供一種個(gè)性化語音合成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì),個(gè)性化語音合成方法,包括:步驟S110:將輸入的中文文本轉(zhuǎn)換成完全編碼的特征序列;步驟S120:將完全編碼的特征序列轉(zhuǎn)換為固定長度的語境向量;步驟S130:將固定長度的語境向量轉(zhuǎn)換為基準(zhǔn)梅爾倒譜序列,所述基準(zhǔn)梅爾倒譜序列為基準(zhǔn)發(fā)音人的梅爾倒譜序列;步驟S140:將所述基準(zhǔn)梅爾倒譜序列轉(zhuǎn)換為目標(biāo)梅爾倒譜序列,所述目標(biāo)梅爾倒譜序列為目標(biāo)發(fā)音人的梅爾倒譜序列;步驟S150:將所述目標(biāo)梅爾倒譜序列轉(zhuǎn)換為目標(biāo)發(fā)音人的語音信號(hào)。本發(fā)明實(shí)現(xiàn)從文本至音頻的端到端的直接個(gè)性化語音合成功能。
技術(shù)領(lǐng)域
本發(fā)明涉及語音文本處理領(lǐng)域,尤其涉及一種個(gè)性化語音合成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)。
背景技術(shù)
語音合成是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù),又叫文語轉(zhuǎn)換技術(shù),即Text to Speech,簡(jiǎn)稱TTS。它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚摹⒘骼恼Z音音頻的技術(shù)。現(xiàn)有的語音合成技術(shù)包括基于HMM等方法,通常只能合成具有通用音色的語音音頻,無法便利地合成具有指定音色的語音音頻。如果要合成具有指定發(fā)音人音色的語音音頻,即實(shí)現(xiàn)個(gè)性化語音合成功能,那么需要收集大量的具有指定音色的發(fā)音人的音頻樣本文件,所需收集的音頻樣本文件往往大于1個(gè)小時(shí)。整個(gè)流程繁瑣,極大地降低了用戶體驗(yàn)的滿意度。
如果采用語音轉(zhuǎn)換技術(shù),可以將具有基準(zhǔn)音色的語音音頻轉(zhuǎn)換為具有指定音色的語音音頻文件。但是,這種技術(shù)需要準(zhǔn)備好具有基準(zhǔn)音色的語音音頻文件,在此基礎(chǔ)上提取音頻文件的基音頻率、非周期性等特征,并將其轉(zhuǎn)換為具有目標(biāo)發(fā)音人音色的基音頻率及非周期性等特征,然后通過語音合成器來生成最終的語音音頻文件。系統(tǒng)較為復(fù)雜,實(shí)時(shí)性較差,且無法實(shí)現(xiàn)從文本至音頻的端到端的直接個(gè)性化語音合成功能。
發(fā)明內(nèi)容
本發(fā)明為了克服上述相關(guān)技術(shù)存在的缺陷,提供一種個(gè)性化語音合成方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì),進(jìn)而至少在一定程度上克服由于相關(guān)技術(shù)的限制和缺陷而導(dǎo)致的一個(gè)或者多個(gè)問題。
根據(jù)本發(fā)明的一個(gè)方面,提供一種個(gè)性化語音合成方法,包括:
步驟S110:將輸入的中文文本轉(zhuǎn)換成完全編碼的特征序列;
步驟S120:將完全編碼的特征序列轉(zhuǎn)換為固定長度的語境向量;
步驟S130:將固定長度的語境向量轉(zhuǎn)換為基準(zhǔn)梅爾倒譜序列,所述基準(zhǔn)梅爾倒譜序列為基準(zhǔn)發(fā)音人的梅爾倒譜序列;
步驟S140:將所述基準(zhǔn)梅爾倒譜序列轉(zhuǎn)換為目標(biāo)梅爾倒譜序列,所述目標(biāo)梅爾倒譜序列為目標(biāo)發(fā)音人的梅爾倒譜序列;
步驟S150:將所述目標(biāo)梅爾倒譜序列轉(zhuǎn)換為目標(biāo)發(fā)音人的語音信號(hào)。
在本發(fā)明的一些實(shí)施例中,所述步驟S110由一編碼器執(zhí)行,所述編碼器包括:
文本轉(zhuǎn)拼音模塊,用于將輸入的中文文本轉(zhuǎn)換為拼音序列;
字符嵌入模塊,用于將所述拼音序列轉(zhuǎn)換為特征向量;
編碼卷積模塊及雙向長短時(shí)記憶模塊,用于將所述特征向量轉(zhuǎn)換為完全編碼的特征序列。
在本發(fā)明的一些實(shí)施例中,所述編碼卷積模塊自輸入至輸出依次包括三層第一卷積層,每個(gè)第一卷積層包括256個(gè)卷積核,每個(gè)卷積核包括一個(gè)第一修正線性單元,每個(gè)卷積核的大小為5*1;
所述雙向長短時(shí)記憶模塊的每個(gè)方向包括128個(gè)長短時(shí)記憶單元。
在本發(fā)明的一些實(shí)施例中,所述步驟S120將完全編碼的特征序列通過32個(gè)長度為31的一維卷積核,以將所述特征序列映射至固定長度的語境向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于愛馳汽車有限公司,未經(jīng)愛馳汽車有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911340068.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L13-00 語音合成;文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法;語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生,例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 頻道信息生成、訪問控制、交付方法、IPTV系統(tǒng)及裝置
- 向個(gè)性化回鈴音用戶提供網(wǎng)絡(luò)閃鈴的方法
- 一種個(gè)性化設(shè)置的控制方法、系統(tǒng)及設(shè)備
- 個(gè)性化配置應(yīng)用功能的方法和裝置
- 瀏覽器新建標(biāo)簽頁的展現(xiàn)方法和瀏覽器客戶端
- 一觸式設(shè)備個(gè)性化
- 一種跨媒介個(gè)性化推薦方法和系統(tǒng)
- 基于大數(shù)據(jù)的證券資訊個(gè)性化服務(wù)系統(tǒng)
- 一種個(gè)性化的交易員教學(xué)自動(dòng)推薦方法和系統(tǒng)
- 實(shí)物禮品的個(gè)性化處理方法、裝置、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





