[發明專利]一種文本糾錯方法、裝置以及相關設備有效
| 申請號: | 201810532317.8 | 申請日: | 2018-05-29 |
| 公開(公告)號: | CN108874174B | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 盧小東 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023;G06F40/232;G06F40/30 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 糾錯 方法 裝置 以及 相關 設備 | ||
1.一種文本糾錯方法,其特征在于,包括:
獲取目標文本,將所述目標文本中的所有字符,作為目標字符;
獲取與每個目標字符相關聯的多個輔助數據;所述多個輔助數據包括:拼音數據、筆畫數據和字形數據;
分別提取所述拼音數據、所述筆畫數據和所述字形數據分別對應的輔助特征向量,并將屬于同一個目標字符的多個輔助特征向量拼接處理,得到目標特征向量;一個所述輔助數據是指所述目標字符對應的一種輸入來源數據;
根據所述目標字符在所述目標文本中的順序,將所述每個目標字符對應的目標特征向量組合為所述目標特征向量序列,基于第一長短期記憶網絡和第二長短期記憶網絡識別所述目標特征向量序列,得到標準文本,并根據所述標準文本對所述目標文本進行糾錯處理。
2.根據權利要求1所述的方法,其特征在于,所述分別提取每個輔助數據對應的輔助特征向量,包括
基于循環神經網絡對所述筆畫數據進行時序處理,得到所述筆畫數據對應的時序特征向量;
基于卷積神經網絡對所述拼音數據進行卷積處理和池化處理,得到所述拼音數據對應的空間特征向量;
基于所述卷積神經網絡對所述字形數據進行卷積處理和池化處理,得到所述字形數據對應的空間特征向量;
將所述筆畫數據對應的時序特征向量、所述拼音數據對應的空間特征向量和所述字形數據對應的空間特征向量均作為所述輔助特征向量。
3.根據權利要求1所述的方法,其特征在于,所述將所有目標特征向量組合為目標特征向量序列,識別所述目標特征向量序列,得到標準文本,包括:
根據所述目標字符在所述目標文本中的順序,將所述每個目標字符對應的目標特征向量組合為所述目標特征向量序列;
基于第一長短期記憶網絡中的隱藏層,對所述目標特征向量序列進行雙向循環編碼處理,得到所述目標特征向量序列對應的正向語義向量和逆向語義向量,將所述正向語義向量和所述逆向語義向量相加,得到所述目標特征向量序列對應的目標語義向量;
基于第二長短期記憶網絡中的隱藏層、所述目標特征向量序列中各目標特征向量,對所述目標語義向量解碼處理,得到各目標特征向量對應的目標隱藏狀態向量;
識別所有目標隱藏狀態向量,得到各目標隱藏狀態向量對應的標準字符,并將所述所有目標隱藏狀態向量對應的標準字符組合為所述標準文本。
4.根據權利要求3所述的方法,其特征在于,所述識別所有目標隱藏狀態向量,得到各目標隱藏狀態向量對應的標準字符,并將所述所有目標隱藏狀態向量對應的標準字符組合為所述標準文本,包括:
基于所述第二長短期記憶網絡的輸出層,識別所有目標隱藏狀態向量與所述第二長短期記憶網絡中多個字符特征之間的匹配概率;
將所述匹配概率大于匹配閾值的字符特征對應的字符,作為標準字符,將所有目標特征向量對應的標準字符組合為至少一個待確定文本;所述待確定文本中各標準字符對應不同的目標特征向量,且所述待確定文本中的標準字符的數量和所有目標特征向量的數量相等;
將置信度大于置信閾值所對應的待確定文本作為所述標準文本;所述待確定文本對應的置信度是通過所述待確定文本中各標準字符對應的匹配概率所計算得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810532317.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中文速錄方案
- 下一篇:一種數據處理方法、裝置、設備和介質





