[發明專利]文本正則化模型訓練方法和裝置、文本正則化方法和裝置有效
| 申請號: | 201710897187.3 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN107705784B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 陳漢英 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G06N3/08;G06N3/04;G06F40/30;G06F40/279 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 正則 模型 訓練 方法 裝置 | ||
1.一種文本正則化模型訓練方法,其特征在于,所述方法包括:
將輸入文本對應的輸入字符序列中的字符依次輸入待生成的文本正則化模型對應的神經網絡中,所述文本正則化模型對應的神經網絡包括編碼器和解碼器;
對所述輸入字符序列中的每個字符,基于所述解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態,采用所述編碼器進行編碼,得到所述字符的中間語義向量,并采用所述解碼器對所述中間語義向量進行解譯,得到所述字符的預測結果;
根據所述輸入字符序列的預測結果與所述輸入文本對應的標注結果之間的差異,對所述神經網絡的參數進行調整;
其中,所述輸入文本對應的輸入字符序列是按照如下方式生成的:
按照第一預設粒度對所述輸入文本進行分割得到第一分割結果;
對所述第一分割結果中的非漢字字符進行相應的標簽化處理,得到所述輸入字符序列。
2.根據權利要求1所述的方法,其特征在于,所述編碼器由循環神經網絡構建,包括與所述輸入字符序列中的各字符一一對應的多個隱節點;
所述基于所述解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態,采用所述編碼器進行編碼,得到所述字符的中間語義向量,包括:
基于所述解碼器中的隱藏層在對輸入的上一個字符解碼后的狀態,計算所述編碼器中各隱節點的狀態權重;
基于所述狀態權重,對各所述隱節點的狀態進行加權求和得到輸入的當前字符的中間語義向量。
3.根據權利要求2所述的方法,其特征在于,所述將輸入文本對應的輸入字符序列中的字符依次輸入待生成的文本正則化模型對應的神經網絡中,包括:
將所述輸入字符序列中的字符分別按照正向排序和反向排序依次輸入所述待生成的文本正則化模型對應的神經網絡中;
所述編碼器是由雙向循環神經網絡構建的,包括雙層隱節點,所述雙層隱節點中的一層隱節點對應按照正向排序輸入的字符,所述雙層隱節點中的另一層隱節點對應按照反向排序輸入的字符。
4.根據權利要求1所述的方法,其特征在于,所述非漢字字符包括以下至少一項:符號字符、連續數字字符、連續字母字符;
所述對所述第一分割結果中的非漢字字符進行相應的標簽化處理,包括:
將所述第一分割結果中的符號字符替換為所述符號字符的讀音類型的標簽,將所述第一分割結果中的連續數字字符替換為所述連續數字字符的語義類型的標簽、在所述第一分割結果中的連續字母字符的首尾兩端添加字母標簽。
5.根據權利要求4所述的方法,其特征在于,所述輸入文本對應的標注結果包括與所述輸入文本的正則化文本對應的目標字符序列;
所述與所述輸入文本的正則化文本對應的目標字符序列按照如下方式生成:
將與所述輸入文本對應的正則化文本按照第二預設粒度進行分割,得到第二分割結果,所述第二分割結果包括以下至少一項:與所述輸入文本中的單個漢字字符對應的單個漢字字符、與所述輸入文本中的連續數字字符對應的第一漢字字符串、與所述輸入文本中的符號字符對應的第二漢字字符串、以及與所述輸入文本中的連續字母字符對應的多個字母字符;
將所述第二分割結果中的第一漢字字符串替換為對應的所述連續數字字符的語義類型的標簽,將所述第二分割結果中的第二漢字字符串替換為對應的所述符號字符的讀音類型的標簽,在所述第二分割結果中的連續字母字符對應的多個字母字符的首尾兩端添加字母標簽。
6.一種文本正則化方法,其特征在于,包括:
獲取已按照第一預設粒度對待處理文本進行分割,并將分割結果中的非漢字字符進行標簽化處理后得到的待處理字符序列;
將所述待處理字符序列輸入已訓練的文本正則化模型,得到輸出字符序列;
對所述輸出字符序列中的字符進行去標簽化處理,并按順序組合標簽化處理后的各字符,得到所述待處理文本的正則化文本;
其中,所述文本正則化模型基于如權利要求1-5任一項所述的方法訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710897187.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:獲取無線信道模型的方法和裝置
- 下一篇:DEM精度檢測方法和裝置





