[發明專利]語音合成方法和裝置有效
| 申請號: | 201711205386.X | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107945786B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 周志平 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 | ||
本申請實施例公開了語音合成方法和裝置。該方法的一具體實施方式包括:確定待處理文本的音素序列;將該音素序列輸入至預先訓練的語音模型,得到與該音素序列中的每一個音素相對應的聲學特征,其中,該語音模型用于表征音素序列中的每一個音素與聲學特征的對應關系;對于該音素序列中的每一個音素,基于預置的、音素與語音波形單元的索引,確定與該音素相對應的至少一個語音波形單元,并基于該音素對應的聲學特征和預設的代價函數,確定該至少一個語音波形單元中的目標語音波形單元;將該音素序列中的各個音素對應的目標語音波形單元進行合成,生成語音。該實施方式提高了語音合成效果。
技術領域
本申請實施例涉及計算機技術領域,具體涉及互聯網技術領域,尤其涉及語音合成方法和裝置。
背景技術
人工智能(Artificial Intelligence,AI)是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。語音合成是通過機械的、電子的方法產生人造語音的技術。文語轉換技術(Text to Speech,TTS)技術隸屬于語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。
現有的語音合成方法通常采用基于隱馬爾可夫模型(Hidden Markov Model,HMM)的語音模型輸出文本對應的聲學特征,之后通過聲碼器將參數轉換為語音。
發明內容
本申請實施例提出了語音合成方法和裝置。
第一方面,本申請實施例提供了一種語音合成方法,該方法包括:確定待處理文本的音素序列;將音素序列輸入至預先訓練的語音模型,得到與音素序列中的每一個音素相對應的聲學特征,其中,語音模型用于表征音素序列中的每一個音素與聲學特征的對應關系;對于音素序列中的每一個音素,基于預置的、音素與語音波形單元的索引,確定與該音素相對應的至少一個語音波形單元,并基于該音素對應的聲學特征和預設的代價函數,確定至少一個語音波形單元中的目標語音波形單元;將音素序列中的各個音素對應的目標語音波形單元進行合成,生成語音。
在一些實施例中,語音模型為端對端神經網絡,端對端神經網絡包括第一神經網絡、注意力模型和第二神經網絡。
在一些實施例中,語音模型通過如下步驟訓練得到:提取訓練樣本,其中,訓練樣本包括文本樣本和與文本樣本相對應的語音樣本;確定文本樣本的音素序列樣本和構成語音樣本的語音波形單元,從構成語音樣本的語音波形單元中提取聲學特征;利用機器學習方法,將音素序列樣本作為輸入,將所提取的聲學特征作為輸出,訓練得到語音模型。
在一些實施例中,預置的、音素與語音波形單元的索引通過如下步驟得到:對于音素序列樣本中的每一個音素,基于該音素對應的聲學特征,確定該音素對應的語音波形單元;基于音素序列樣本中的各個音素與語音波形單元的對應關系,建立音素與語音波形單元的索引。
在一些實施例中,代價函數包括目標代價函數和連接代價函數,目標代價函數用于表征語音波形單元與聲學特征的匹配程度,連接代價函數用于表征相鄰的語音波形單元的連續程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711205386.X/2.html,轉載請聲明來源鉆瓜專利網。





