[發明專利]將書面文本轉換為口語文本的方法及系統有效
| 申請號: | 201710987858.5 | 申請日: | 2017-10-21 |
| 公開(公告)號: | CN107844480B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 周明;江源;胡國平;胡郁 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/40 | 分類號: | G06F40/40;G06F40/289 |
| 代理公司: | 北京華圣典睿知識產權代理有限公司 11510 | 代理人: | 陳國偉 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 書面 文本 轉換 口語 方法 系統 | ||
1.一種將書面文本轉換為口語文本的方法,其特征在于,所述方法包括:
接收待轉換的源文本數據;
對所述源文本數據進行分詞及向量化處理,得到每句源文本數據的詞向量序列;
依次將每句源文本數據的詞向量序列輸入預先通過收集書面語文本數據及與其對應的口語化本數據構建的文本轉換模型,根據所述文本轉換模型的輸出得到所述源文本數據對應的目標文本數據;所述文本轉換模型包括編碼網絡和解碼網絡,在訓練過程中利用所述書面語文本數據輸入所述編碼網絡后,所述解碼網絡輸出的目標文本序列與所述書面語文本數據對應的口語化文本數據之間的差值對模型參數進行更新;在所述目標文本數據中插入副語言信息,得到帶有副語言信息的口語化文本數據。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:所述文本轉換模型的構建過程包括:
確定文本轉換模型的拓撲結構,所述拓撲結構包括編碼網絡和解碼網絡,所述編碼網絡的輸入為詞向量序列、輸出為詞編碼向量;所述解碼網絡的輸入為所述編碼網絡輸出的詞編碼向量及當前待轉換詞之前的歷史詞向量、輸出為目標文本序列;
收集大量文本數據,所述文本數據包括書面語文本數據及與其對應的口語化文本數據;
對所述書面語文本數據進行分詞及向量化處理,得到每句書面語文本數據的詞向量序列;
根據所述詞向量序列及對應的目標文本數據訓練模型參數,在訓練過程中依次將每句源文本數據的詞向量序列輸入所述編碼網絡,利用所述解碼網絡輸出的目標文本序列與所述源文本數據對應的目標文本數據之間的差值對模型參數進行更新;并在訓練結束后,得到模型參數。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
在所述目標文本數據中插入副語言信息之前,確定所述目標文本數據是否需要進行詞序調整;
如果需要,則對所述目標文本數據進行詞序調整。
4.根據權利要求3所述的方法,其特征在于,所述確定所述目標文本數據是否需要進行詞序調整包括:
計算所述目標文本數據的語言模型得分;
如果所述得分低于設定閾值,則根據預先構建的詞序調整判斷模型依次判斷所述目標文本數據中相鄰詞的詞序是否需要調整。
5.根據權利要求4所述的方法,其特征在于,所述根據預先構建的詞序調整判斷模型依次判斷所述目標文本數據中相鄰詞的詞序是否需要調整包括:
依次將所述目標文本數據中的各詞作為當前待判斷詞,將所述當前待判斷詞及其上下文信息輸入所述詞序調整判斷模型,根據所述詞序調整判斷模型的輸出確定是否對當前待判斷詞及其相鄰詞的詞序進行調整。
6.根據權利要求5所述的方法,其特征在于,所述待判斷詞的上下文信息包括以下任意一項或多項:所述待判斷詞的前、后一個或多個詞,所述待判斷詞所屬句子的語義信息,所述待判斷詞所屬句子的語言模型得分。
7.根據權利要求1至6任一項所述的方法,其特征在于,所述在所述目標文本數據中插入副語言信息包括:
將所述目標文本數據的詞序列輸入預先構建的位置預測模型,根據所述位置預測模型的輸出確定每種副語言信息的插入位置;
在每種副語言信息的插入位置插入對應的副語言信息。
8.根據權利要求7所述的方法,其特征在于,所述位置預測模型的輸出為:副語言信息的類型和位置,或者副語言信息的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710987858.5/1.html,轉載請聲明來源鉆瓜專利網。





