[發(fā)明專利]一種文本糾錯方法、裝置以及相關設備有效
| 申請?zhí)枺?/td> | 201810532317.8 | 申請日: | 2018-05-29 |
| 公開(公告)號: | CN108874174B | 公開(公告)日: | 2020-04-24 |
| 發(fā)明(設計)人: | 盧小東 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023;G06F40/232;G06F40/30 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 糾錯 方法 裝置 以及 相關 設備 | ||
本發(fā)明實施例公開了一種文本糾錯方法、裝置以及相關設備,所述方法包括:獲取目標文本,將所述目標文本中的所有字符,作為目標字符;獲取與每個目標字符相關聯的多個輔助數據,分別提取每個輔助數據對應的輔助特征向量,并將屬于同一個目標字符的多個輔助特征向量拼接處理,得到目標特征向量;一個所述輔助數據是指所述目標字符對應的一種輸入來源數據;將所有目標特征向量組合為目標特征向量序列,識別所述目標特征向量序列,得到標準文本,并根據所述標準文本對所述目標文本進行糾錯處理。采用本發(fā)明,可以提高對文本的糾錯準確率。
技術領域
本發(fā)明涉及計算機技術領域,尤其涉及一種文本糾錯方法、裝置以及相關設備。
背景技術
在信息技術迅猛發(fā)展的今天,人與移動終端的交互也越來越來越頻繁。現在移動終端已經能夠理解自然語言,但是用戶在向移動終端輸入自然語言的同時不可避免地會出現輸入錯誤,這樣給移動終端理解用戶的語義帶來很大的障礙,所以對自然語言的輸入糾錯就具有非常重要的意義。
用戶的輸入錯誤主要包括拼音錯誤(例如,將“勤勞”輸入為“琴老”)、手寫錯誤(例如將“太陽”輸入為“大陽”)等,現有方法只能根據拼音糾錯,即是根據拼音和漢字的對應關系以及該漢字的上下文關系,訓練糾錯模型,該糾錯模型可以糾正拼音相同或者拼音相似但文字不同的錯誤輸入文本,例如,可以將“琴勞的人民”糾正為“勤勞的人民”。
但用戶的輸入方式是多種多樣的,對那些非拼音輸入的錯誤文本(例如,筆畫錯誤),采用單一的拼音糾錯模型就不能準確識別文本中的錯誤以及有效地糾正該錯誤,進而降低對輸入文本的糾錯準確率。
發(fā)明內容
本發(fā)明實施例提供一種文本糾錯方法、裝置以及相關設備,可以提高對文本的糾錯準確率。
本發(fā)明一方面提供了一種文本糾錯方法,包括:
獲取目標文本,將所述目標文本中的所有字符,作為目標字符;
獲取與每個目標字符相關聯的多個輔助數據,分別提取每個輔助數據對應的輔助特征向量,并將屬于同一個目標字符的多個輔助特征向量拼接處理,得到目標特征向量;一個所述輔助數據是指所述目標字符對應的一種輸入來源數據;
將所有目標特征向量組合為目標特征向量序列,識別所述目標特征向量序列,得到標準文本,并根據所述標準文本對所述目標文本進行糾錯處理。
其中,所述輔助數據包括:拼音數據、筆畫數據和字形數據;
所述分別提取每個輔助數據對應的輔助特征向量,包括
基于循環(huán)神經網絡對所述筆畫數據進行時序處理,得到所述筆畫數據對應的時序特征向量;
基于卷積神經網絡對所述拼音數據進行卷積處理和池化處理,得到所述拼音數據對應的空間特征向量;
基于所述卷積神經網絡對所述字形數據進行卷積處理和池化處理,得到所述字形數據對應的空間特征向量;
將所述筆畫數據對應的時序特征向量、所述拼音數據對應的空間特征向量和所述字形數據對應的空間特征向量均作為所述輔助特征向量。
其中,所述將所有目標特征向量組合為目標特征向量序列,識別所述目標特征向量序列,得到標準文本,包括:
根據所述目標字符在所述目標文本中的順序,將所述每個目標字符對應的目標特征向量組合為所述目標特征向量序列;
基于第一長短期記憶網絡中的隱藏層,對所述目標特征向量序列進行雙向循環(huán)編碼處理,得到所述目標特征向量序列對應的正向語義向量和逆向語義向量,將所述正向語義向量和所述逆向語義向量相加,得到所述目標特征向量序列對應的目標語義向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810532317.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中文速錄方案
- 下一篇:一種數據處理方法、裝置、設備和介質





