[發(fā)明專利]文本轉換模型訓練方法和裝置、文本轉換方法和裝置有效
| 申請?zhí)枺?/td> | 201710901952.4 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN107680580B | 公開(公告)日: | 2020-08-18 |
| 發(fā)明(設計)人: | 陳漢英 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L25/30;G06K9/62;G06F40/30 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 轉換 模型 訓練 方法 裝置 | ||
本申請公開了文本轉換模型訓練方法和裝置、文本轉換方法和裝置。該文本轉換模型訓練方法的一具體實施方式包括:將輸入文本對應的輸入字符序列中的字符依次輸入待生成的文本轉換模型對應的神經網絡中,文本轉換模型對應的神經網絡包括編碼器和解碼器;對輸入字符序列中的每個字符,基于解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態(tài),采用編碼器進行編碼,得到字符的中間語義向量,并采用解碼器對中間語義向量進行解譯,得到字符的預測結果;根據輸入字符序列的預測結果與輸入文本對應的標注結果之間的差異,對神經網絡的參數進行調整。該實施方式得到的文本轉換模型可以實現文本正則化和多音字的聯合預測,減小了資源維護成本。
技術領域
本申請實施例涉及計算機技術領域,具體涉及語音合成技術領域,尤其涉及文本轉換模型訓練方法和裝置、文本轉換方法和裝置。
背景技術
人工智能(Artificial Intelligence,AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語音識別、語音合成、圖像識別、自然語言處理和專家系統等。其中,語音合成技術是計算機科學領域與人工智能領域中的一個重要方向。
語音合成是通過機械的、電子的方法產生人造語音的技術。通常中文語音合成技術中需要對文本進行轉換,以確定文本中各字符的讀音。文本進行正則化和多音字讀音標注是語音合成中文本轉換的關鍵技術。其中文本正則化是將文本中的非標準字符轉換成標準字符的過程,例如將包括符號、字母、阿拉伯數字等非漢字字符轉換成漢字字符。
現有的語音合成技術中大多先采用基于對語料的觀察和統計設定的一些非標準字符到標準字符的轉換規(guī)則的方法對文本進行正則化處理,然后采用基于多音字在不同上下文中的讀音規(guī)則對正則化文本中的多音字進行標注。然而,由基于規(guī)則的方法的泛化性很差,且對文本的上下文有嚴格的限制,文本格式或內容稍有改變,對應的規(guī)則就可能失效。并且文本正則化處理所需要維護的資源和多音字讀音標注中所需要維護的資源(例如構建規(guī)則所需要的語料)之間具有重合,這些資源的維護成本較高。
發(fā)明內容
為了解決上述背景技術部分提到的一個或多個技術問題,本申請實施例提供了文本轉換模型訓練方法和裝置、文本轉換方法和裝置。
第一方面,本申請實施例提供了一種文本轉換模型訓練方法,包括:將輸入文本對應的輸入字符序列中的字符依次輸入待生成的文本轉換模型對應的神經網絡中,文本轉換模型對應的神經網絡包括編碼器和解碼器;對輸入字符序列中的每個字符,基于解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態(tài),采用編碼器進行編碼,得到字符的中間語義向量,并采用解碼器對中間語義向量進行解譯,得到字符的預測結果;根據輸入字符序列的預測結果與輸入文本對應的標注結果之間的差異,對神經網絡的參數進行調整,標注結果包括已標注的與輸入文本的正則化文本對應的目標字符序列;其中,輸入文本對應的輸入字符序列是按照如下方式生成的:按照第一預設粒度對輸入文本進行分割得到第一分割結果;對第一分割結果中的非漢字字符進行相應的標簽化處理,得到輸入字符序列;目標字符序列是按照如下方式生成的:將與輸入文本對應的正則化文本按照第二預設粒度進行分割得到第二分割結果;對第二分割結果中的多音字字符和與輸入文本中的非漢字字符對應的字符進行相應的標簽化處理。
在一些實施例中,上述編碼器由循環(huán)神經網絡構建,包括與輸入字符序列中的各字符一一對應的多個隱節(jié)點;上述基于解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態(tài),采用編碼器進行編碼,得到字符的中間語義向量,包括:基于解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態(tài),計算編碼器中各隱節(jié)點的狀態(tài)權重;基于狀態(tài)權重,對各隱節(jié)點的狀態(tài)進行加權求和得到輸入的當前字符的中間語義向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710901952.4/2.html,轉載請聲明來源鉆瓜專利網。





