[發明專利]一種模型訓練及語音合成方法、裝置、設備和介質在審
| 申請號: | 202010668214.1 | 申請日: | 2020-07-13 |
| 公開(公告)號: | CN111883101A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 康永國 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L13/047 | 分類號: | G10L13/047;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 訓練 語音 合成 方法 裝置 設備 介質 | ||
本申請公開了一種模型訓練及語音合成方法、裝置、設備和介質,涉及人工智能、深度學習和語音技術領域。具體實現方案為:獲取訓練數據集中的樣本文本;基于預先采用無監督的訓練方法訓練出的聲學模型,確定所述樣本文本對應的標簽信息;其中,所述標簽信息包括風格信息和/或角色信息;基于所述樣本文本以及所述樣本文本對應的標簽信息,對文本分類模型進行訓練;其中,所述文本分類模型用于根據輸入的文本輸出對應的標簽信息。本申請實施例實現了自動確定樣本文本對應的標簽信息的技術效果,提高了標簽標注的準確性以及效率,相應提高了文本訓練模型的訓練速度。
技術領域
本申請實施例涉及人工智能、深度學習和語音技術領域,具體涉及一種模型訓練及語音合成方法、裝置、設備和介質。
背景技術
傳統語音合成技術采用有監督的機器學習,即不同風格、不同情感或者不同角色的文本數據都有其相應標簽,這些標簽可以幫助語音合成系統更好的建模和生成語音。
現有方法通常是由標注人員根據主觀經驗對獲取的文本數據進行標簽標注,但是由于各標注人員對標簽理解不一致,從而導致標簽標注的準確率較低,且由于需要標注人員對數據進行人工標注,因此標簽標注的效率也較低。
發明內容
本公開實施例提供了一種模型訓練及語音合成方法、裝置、設備和介質。
根據本申請公開的一方面,提供了一種模型訓練方法,所述方法包括:
獲取訓練數據集中的樣本文本;
基于預先采用無監督的訓練方法訓練出的聲學模型,確定所述樣本文本對應的標簽信息;其中,所述標簽信息包括風格信息和/或角色信息;
基于所述樣本文本以及所述樣本文本對應的標簽信息,對文本分類模型進行訓練;其中,所述文本分類模型用于根據輸入的文本輸出對應的標簽信息。
根據本申請公開的另一方面,提供了一種語音合成方法,所述方法包括:
將待合成文本輸入到預先訓練出的文本分類模型,獲得所述分類模型輸出的所述待合成文本對應的標簽信息;其中,所述標簽信息包括風格信息和/或角色信息;所述文本分類模型是使用本申請公開的一種模型訓練方法訓練出的模型;
根據本申請公開的另一方面,提供了一種模型訓練裝置,所述裝置包括:
樣本文本獲取模塊,用于獲取訓練數據集中的樣本文本;
標簽信息確定模塊,用于基于預先采用無監督的訓練方法訓練出的聲學模型,確定所述樣本文本對應的標簽信息;其中,所述標簽信息包括風格信息和/或角色信息;
文本分類模型訓練模塊,用于基于所述樣本文本以及所述樣本文本對應的標簽信息,對文本分類模型進行訓練;其中,所述文本分類模型用于根據輸入的文本輸出對應的標簽信息。
根據本申請公開的另一方面,提供了一種語音合成裝置,所述裝置包括:
標簽信息獲取模塊,用于將待合成文本輸入到預先訓練出的文本分類模型,獲得所述分類模型輸出的所述待合成文本對應的標簽信息;其中,所述標簽信息包括風格信息和/或角色信息;所述文本分類模型是使用本申請公開的一種模型訓練方法訓練出的模型;
聲學特征獲取模塊,用于將所述待合成文本的文本特征以及所述待合成文本對應的標簽信息,輸入到預先采用無監督的訓練方法訓練出的聲學模型,獲得所述聲學模型輸出的所述文本特征和所述標簽信息對應的聲學特征;
語音合成模塊,用于基于所述聲學特征對所述待合成文本進行語音合成,獲得所述待合成文本對應的語音數據。
根據本申請公開的另一方面,提供了一種電子設備,包括:
至少一個處理器;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010668214.1/2.html,轉載請聲明來源鉆瓜專利網。





