[發明專利]音頻中的文本對齊方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202011128978.8 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112257407A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 詹皓粵;林悅 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F40/189 | 分類號: | G06F40/189;G06F16/35 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 張芮 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 中的 文本 對齊 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種音頻中的文本對齊方法,其特征在于,所述文本對齊方法包括:
獲取待處理音頻,以及所述待處理音頻對應的待對齊文本;
根據預設的所述待對齊文本所屬語言種類與預設文本字符之間的映射關系,將所述待對齊文本轉換為利用統一字符表示的文本表示集合;
提取所述待處理音頻的語音學特征;
將所述文本表示集合以及所述語音學特征輸入至訓練好的文本對齊模型中,得到所述待處理音頻的文本對齊結果。
2.根據權利要求1所述的文本對齊方法,其特征在于,所述根據預設的所述待對齊文本所屬語言種類與預設文本字符之間的映射關系,將所述待對齊文本轉換為利用統一字符表示的文本表示集合,包括:
確定所述待對齊文本所屬的至少一個語言種類,以及所述待對齊文本中的多個字和/或詞;
按照每個語言種類與預設文本字符之間的映射關系,確定每個字和/或詞對應的國際音標和音素;
基于每個字和/或詞對應的國際音標和音素,以及每個字和/或詞在所述待對齊文本中的位置,確定所述待對齊文本的文本表示集合。
3.根據權利要求1所述的文本對齊方法,其特征在于,所述將所述文本表示集合以及所述語音學特征輸入至訓練好的文本對齊模型中,得到所述待處理音頻的文本對齊結果,包括:
根據所述文本表示集合,確定所述待對齊文本中每個字和/或詞的發音特征,并根據所述語音學特征所指示的語音頻譜,確定所述待處理音頻的發音特征;
基于所述待對齊文本中每個字和/或詞的發音特征,和所述待處理音頻的發音特征,確定所述待對齊文本與所述待處理音頻的多種對齊方式,以及每種對齊方式對應的對齊概率;
確定所述多種對齊方式中對齊概率最大的對齊方式為所述待處理音頻的文本對齊結果。
4.根據權利要求1所述的文本對齊方法,其特征在于,通過以下步驟訓練所述文本對齊模型:
獲取多個樣本處理音頻和每個樣本處理音頻對應的樣本對齊文本,以及每個樣本處理音頻對應的真實對齊結果;
針對于每個樣本對齊文本,根據預設的所述樣本對齊文本所屬語言種類與預設文本字符之間的映射關系,將所述樣本對齊文本轉換為利用統一字符表示的樣本表示集合;
提取每個樣本處理音頻的樣本語音特征;
基于每個樣本對齊文本對應的樣本表示集合、每個待處理音頻的樣本語音特征以及每個樣本處理音頻對應的真實對齊結果,對構建好的高斯混合模型進行迭代訓練,得到訓練好的文本對齊模型。
5.根據權利要求4所述的文本對齊方法,其特征在于,所述基于每個樣本對齊文本對應的樣本表示集合、每個待處理音頻的樣本語音特征以及每個樣本處理音頻對應的真實對齊結果,對構建好的高斯混合模型進行迭代訓練,得到訓練好的文本對齊模型,包括:
將每個樣本對齊文本對應的樣本表示集合,以及每個樣本處理音頻的樣本語音特征輸入至構建好的高斯混合模型,得到每個樣本處理音頻對應的第一預測對齊結果;
基于每個樣本處理音頻的第一預測對齊結果以及真實對齊結果,調整所述高斯混合模型的參數;
將調整后的所述高斯混合模型作為構建好的高斯混合模型,通過每個樣本對齊文本對應的樣本表示集合、每個待處理音頻的樣本語音特征以及每個樣本處理音頻對應的真實對齊結果對調整后的所述高斯混合模型進行迭代訓練,直至訓練次數達到預設訓練次數或者訓練后的所述高斯混合模型收斂,確定所述高斯混合模型訓練完畢;
將訓練完畢的所述高斯混合模型作為所述文本對齊模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011128978.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理的方法和裝置
- 下一篇:一種環保加工白乳膠方法





