[發明專利]一種文本預處理方法、裝置及存儲介質有效

申請號：	201911289718.6	申請日：	2019-12-13
公開（公告）號：	CN111090992B	公開（公告）日：	2022-12-06
發明（設計）人：	劉曉芳;昝景園;趙建強;張輝極	申請（專利權）人：	廈門市美亞柏科信息股份有限公司
主分類號：	G06F40/242	分類號：	G06F40/242;G06F40/289;G06F16/33;G06F21/60
代理公司：	廈門福貝知識產權代理事務所(普通合伙) 35235	代理人：	陳遠洋
地址：	361000 福建省廈門市***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文本預處理方法裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本預處理方法，其特征在于，包括以下步驟：

S1：構造特征信息表，通過所述特征信息表對用戶自定義分詞字典進行更新，通過加密算法對所述特征信息表和更新后的所述用戶自定義分詞字典進行加密；

所述特征信息表對所述用戶自定義分詞字典進行更新的具體過程包括：

S11：讀取所述用戶自定義分詞字典和分詞工具默認分詞字典，在所述特征信息表中增加新的特征信息V_n；

S12：若V_n與所述用戶自定義分詞字典或所述分詞工具默認分詞字典中的特征信息完全匹配，則不更新所述用戶自定義分詞字典；若V_n與所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息的子字符串完全不匹配，或所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息與V_n的子字符串完全不匹配，則將V_n及其詞頻TF更新在所述用戶自定義分詞字典中；若V_n與所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息的子字符串匹配，或所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息與V_n的子字符串匹配，且

TF(uDict_m)＞TF(V_n)＞TF(dDict_k)

其中，TF(uDict_m)為所述用戶自定義分詞字典中的包含特征信息的字符串詞頻，TF(dDict_k)為所述分詞工具默認分詞字典中的包含特征信息的字符串的詞頻，則將V_n及其詞頻TF更新在所述用戶自定義分詞字典中；

S2：輸入文本數據，通過所述特征信息表對所述文本數據進行匹配，保留所述文本數據在所述特征信息表中出現的特征信息，對所述文本數據中的非法序列信息進行刪除得到新的字符串；以及

S3：對加密后的所述用戶自定義分詞字典進行解密和加載，并通過所述用戶自定義分詞字典對所述新的字符串進行分詞。

2.根據權利要求1所述的文本預處理方法，其特征在于，所述加密算法包括AES加密算法。

3.根據權利要求1所述的文本預處理方法，其特征在于，所述步驟S2具體包括：

S21：遍歷所述特征信息表V＝{V₁,V₂,...,V_n}中的字符串V_i，查找V_i是否是所述文本數據的子字符串，若是，則查找V_i在所述文本數據中所出現的起始位置

ID＝{ID₁，ID₂，ID₃，...,ID_T}，

并通過V_i的長度計算出V_i在所述文本數據中所出現的位置并存儲在數據庫中，否則查找V_i+1，循環步驟S21；

S22：對所述步驟S21進行修正以刪除所述文本數據中的非法序列信息的字符串；以及

S23：循環執行所述步驟S21和所述步驟S22，直到i＝n。

4.根據權利要求3所述的文本預處理方法，其特征在于，對所述數據庫中的字符根據在所述文本數據中所出現的位置進行去重和排序，得到所述新的字符串。