[發明專利]語音合成方法和裝置有效
| 申請號: | 201711205386.X | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107945786B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 周志平 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 | ||
1.一種語音合成方法,包括:
確定待處理文本的音素序列;
將所述音素序列輸入至預先訓練的語音模型,得到與所述音素序列中的每一個音素相對應的聲學特征,其中,所述語音模型用于表征音素序列中的每一個音素與聲學特征的對應關系;
對于所述音素序列中的每一個音素,基于預置的、音素與語音波形單元的索引,確定與該音素相對應的至少一個語音波形單元,并基于該音素對應的聲學特征和預設的代價函數,確定所述至少一個語音波形單元中的目標語音波形單元;
所述基于該音素對應的聲學特征和預設的代價函數,確定所述至少一個語音波形單元中的目標語音波形單元,包括:
將該音素對應的聲學特征確定為目標聲學特征;
從該音素相對應的所述至少一個語音波形單元中的提取每一語音波形單元對應的聲學特征;
計算所述目標聲學特征與每一所述語音波形單元對應的聲學特征的歐氏距離,所述預設的代價函數為基于歐式距離建立的函數;
根據所述歐式距離確定該音素的目標語音波形單元;
將所述音素序列中的各個音素對應的目標語音波形單元進行合成,生成語音。
2.根據權利要求1所述的語音合成方法,其中,所述語音模型為端對端神經網絡,所述端對端神經網絡包括第一神經網絡、注意力模型和第二神經網絡。
3.根據權利要求1所述的語音合成方法,其中,所述語音模型通過如下步驟訓練得到:
提取訓練樣本,其中,所述訓練樣本包括文本樣本和與所述文本樣本相對應的語音樣本;
確定所述文本樣本的音素序列樣本和構成所述語音樣本的語音波形單元,從構成所述語音樣本的語音波形單元中提取聲學特征;
利用機器學習方法,將所述音素序列樣本作為輸入,將所提取的聲學特征作為輸出,訓練得到語音模型。
4.根據權利要求3所述的語音合成方法,其中,所述預置的、音素與語音波形單元的索引通過如下步驟得到:
對于所述音素序列樣本中的每一個音素,基于該音素對應的聲學特征,確定該音素對應的語音波形單元;
基于所述音素序列樣本中的各個音素與語音波形單元的對應關系,建立音素與語音波形單元的索引。
5.根據權利要求1所述的語音合成方法,其中,所述預設的代價函數包括目標代價函數和連接代價函數,所述目標代價函數用于表征語音波形單元與所述聲學特征的匹配程度,所述連接代價函數用于表征相鄰的語音波形單元的連續程度。
6.根據權利要求5所述的語音合成方法,其中,所述對于所述音素序列中的每一個音素,基于預置的、音素與語音波形單元的索引,確定與該音素相對應的至少一個語音波形單元,并基于該音素對應的聲學特征、預設的代價函數,確定所述至少一個語音波形單元中的目標語音波形單元,包括:
對于所述音素序列中的每一個音素,基于預置的、音素與語音波形單元的索引,確定與該音素相對應的至少一個語音波形單元;將該音素對應的聲學特征作為目標聲學特征,對于所述至少一個語音波形單元中的每一個語音波形單元,提取該語音波形單元的聲學特征,基于所提取的聲學特征和所述目標聲學特征,確定所述目標代價函數的值;將滿足預設條件的所述目標代價函數的值所對應的語音波形單元確定為該音素對應的候選語音波形單元;
基于所確定的各個候選語音波形單元所對應的聲學特征和所述連接代價函數,利用維特比算法確定所述音素序列中的每一個音素對應的候選語音波形單元中的目標語音波形單元。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711205386.X/1.html,轉載請聲明來源鉆瓜專利網。





