[發明專利]一種基于人工智能的文本糾錯方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010598449.8 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111753531A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 鄭立穎;徐亮 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216;G06F40/289;G06F40/242;G06N7/00 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 文本 糾錯 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種基于人工智能的文本糾錯方法,其特征在于,包括:
獲取歷史公文數據,其中,所述歷史公文數據中包括公文文本;
對所述公文文本進行新詞發現處理,得到新詞;
將所述新詞加入到原詞典庫中,得到加入所述新詞后的目標詞典庫;
獲取待糾錯原文本;
根據所述待糾錯原文本和所述目標詞典庫確定所述待糾錯原文本中的候選錯誤詞;
根據每個所述候選錯誤詞確定每個所述候選錯誤詞的同音詞集合;
分別將所述待糾錯原文本的候選錯誤詞替換為所述同音詞集合中對應的同音詞,得到已糾錯文本集合;
從所述已糾錯文本集合中選取超過預設的文本通順度的已糾錯文本作為最終的已糾錯文本。
2.如權利要求1所述的基于人工智能的文本糾錯方法,其特征在于,所述對所述公文文本進行新詞發現處理,得到新詞,包括:
按順序依次對所述公文文本的字符拆成多元組,將得到的多元組作為候選詞組集合;
采用分詞工具包對所述公文文本進行分詞,得到所述公文文本對應的分詞集合;
從所述候選詞組集合中刪除所述公文文本對應的分詞集合,得到目標候選詞組集合;
針對所述目標候選詞組集合的詞組,根據各所述詞組中每個詞出現的概率計算,得到目標候選詞組集合中每個詞組對應的分值;
對所述目標候選詞組集合中每個詞組對應的分值進行排序,得到排序結果;
根據所述排序結果和預設閾值對目標候選詞組集合中的詞組進行篩選,得到新詞。
3.如權利要求2所述的基于人工智能的文本糾錯方法,其特征在于,所述針對所述目標候選詞組集合的詞組,根據各所述詞組中每個詞出現的概率計算,得到目標候選詞組集合中每個詞組對應的分值,包括:
按順序依次將所述目標候選詞組集合的詞組拆成第一字符和第二字符;
獲取所述第一字符出現的概率、所述第二字符出現的概率以及所述詞組出現的概率;
獲取所述詞組的左側的信息熵以及所述詞組的右側的信息熵;
針對所述目標候選詞組集合中的每個詞組,分別根據每個詞組對應的所述第一字符出現的概率、所述第二字符出現的概率、所述詞組出現的概率、所述詞組左側的信息熵以及所述詞組右側的信息熵,得到每個詞組對應的分值。
4.如權利要求3所述的基于人工智能的文本糾錯方法,其特征在于,當所述目標候選詞組集合中的詞組為二元組時,所述按順序依次將所述目標候選詞組集合的詞組拆成第一字符和第二字符,包括:
按順序依次將所述二元組拆分成第一字符和第二字符,其中,所述第一字符和所述第二字符均為單字符;
所述針對所述目標候選詞組集合中的每個詞組,分別根據每個詞組對應的所述第一字符出現的概率、所述第二字符出現的概率、所述詞組出現的概率、所述詞組左側的信息熵以及所述詞組右側的信息熵,得到每個詞組對應的分值,包括:
采用如下分值計算公式得到每個詞組對應的分值;
其中,p(x,y)為第一字符x和第二字符y共同出現的概率,p(x)為第一字符x出現的概率,p(y)為第二字符y出現的概率,LE為詞組左側的信息熵,RE為詞組右側的信息熵。
5.如權利要求3所述的基于人工智能的文本糾錯方法,其特征在于,當所述目標候選詞組集合中的詞組為三元組時,所述按順序依次將所述目標候選詞組集合的詞組拆成第一字符和第二字符,包括:
按順序依次將所述三元組拆分成第一字符和第二字符,其中,所述第一字符為雙字符,所述第二字符均為單字符;
所述針對所述目標候選詞組集合中的每個詞組,分別根據每個詞組對應的所述第一字符出現的概率、所述第二字符出現的概率、所述詞組出現的概率、所述詞組左側的信息熵以及所述詞組右側的信息熵,得到每個詞組對應的分值,包括:
采用如下分值計算公式得到每個詞組對應的分值;
其中,p(x,y)為第一字符x和第二字符y共同出現的概率,p(x)為第一字符x出現的概率,p(y)為第二字符y出現的概率,LE為詞組左側的信息熵,RE為詞組右側的信息熵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010598449.8/1.html,轉載請聲明來源鉆瓜專利網。





