[發明專利]語音處理系統和方法有效
| 申請號: | 201410419320.0 | 申請日: | 2014-08-22 |
| 公開(公告)號: | CN104424943B | 公開(公告)日: | 2019-07-12 |
| 發明(設計)人: | 陳浪舟 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G10L15/07 | 分類號: | G10L15/07;G10L15/14 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 周良玉;楊曉光 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 系統 方法 | ||
1.一種訓練用于文本轉語音系統的聲學模型的方法,
所述方法包括:
接收語音數據,
所述語音數據包括對應于第一語音因素的不同值的數據,
并且其中所述語音數據未標記,從而對于語音數據的給定項,所述第一語音因素的值未知;
根據所述第一語音因素的值將所述語音數據聚簇為第一聚類集;以及
估計與該第一聚類集相關的第一參數集以使得所述聲學模型能夠針對所述第一語音因素的不同值適應語音;
其中所述聚簇和所述第一參數估計根據共同的最大似然性準則聯合執行。
2.根據權利要求1的方法,其中所述第一參數集包括依賴于所述第一語音因素的聚類自適應訓練權重。
3.根據權利要求1的方法,其中所述第一參數集為依賴于所述第一語音因素的約束似然性線性回歸變換。
4.根據權利要求1的方法,其中所述第一語音因素是說話者,并且所述語音數據進一步包括來自以中性語音說話的一個或多個說話者的語音數據。
5.根據權利要求1的方法,其中所述第一語音因素為表達。
6.根據權利要求5的方法,進一步包括:
接收對應于所述已接收語音數據的文本數據;
從所述輸入文本提取表達特征,以形成在第一空間中構建的表達語言特征向量;
從所述語音數據提取表達特征并形成在第二空間中構建的表達特征合成向量;以及
訓練機器學習算法,所述機器學習算法的訓練輸入是表達語言特征向量,其訓練輸出是對應于所述語音數據和所述文本數據的表達特征合成向量。
7.根據權利要求1的方法,其中所述語音數據進一步包括對應于第二語音因素的不同值的數據。
8.根據權利要求7的方法,其中第二語音因素的值未知;
并且,其中所述方法進一步包括:
根據所述第二語音因素的值將所述語音數據聚簇為第二聚類集;以及
估計與該第二聚類集相關的第二參數集以使得所述聲學模型能夠針對所述第二語音因素的不同值適應語音;
其中所述第一和第二參數集與所述第一和第二聚類集不重疊,并且
其中所述聚簇和所述第二參數估計根據所述第二參數估計和所述聚簇為第二聚類集兩者所共同遵循的單個最大似然性準則聯合執行。
9.根據權利要求8的方法,其中所述第二參數集包括依賴于所述第二語音因素的聚類自適應訓練權重。
10.根據權利要求8的方法,其中所述第二參數集為依賴于所述第二語音因素的約束似然性線性回歸變換。
11.根據權利要求4的方法,其中所述語音數據進一步包括對應于第二語音因素的不同值的數據,并且其中訓練所述聲學模型進一步包括:
根據所述第二語音因素的值將所述語音數據聚簇為第二聚類集;以及
估計與該第二聚類集相關的第二參數集以使得所述聲學模型能夠針對所述第二語音因素的不同值適應語音;
其中所述聚簇和所述第二參數估計根據所述第二參數估計和所述聚簇為第二聚類集兩者所共同遵循的單個最大似然性準則聯合執行,
并且其中所述第一和第二參數集與所述第一和第二聚類集不重疊。
12.根據權利要求11的方法,其中所述第二語音因素為表達。
13.根據權利要求1的方法,其中所述聲學模型包括將聲學單元與語音向量序列相關聯的概率分布函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝,未經株式會社東芝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410419320.0/1.html,轉載請聲明來源鉆瓜專利網。





