[發明專利]一種文本預處理方法、裝置及存儲介質有效
| 申請號: | 201911289718.6 | 申請日: | 2019-12-13 |
| 公開(公告)號: | CN111090992B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 劉曉芳;昝景園;趙建強;張輝極 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289;G06F16/33;G06F21/60 |
| 代理公司: | 廈門福貝知識產權代理事務所(普通合伙) 35235 | 代理人: | 陳遠洋 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 預處理 方法 裝置 存儲 介質 | ||
1.一種文本預處理方法,其特征在于,包括以下步驟:
S1:構造特征信息表,通過所述特征信息表對用戶自定義分詞字典進行更新,通過加密算法對所述特征信息表和更新后的所述用戶自定義分詞字典進行加密;
所述特征信息表對所述用戶自定義分詞字典進行更新的具體過程包括:
S11:讀取所述用戶自定義分詞字典和分詞工具默認分詞字典,在所述特征信息表中增加新的特征信息Vn;
S12:若Vn與所述用戶自定義分詞字典或所述分詞工具默認分詞字典中的特征信息完全匹配,則不更新所述用戶自定義分詞字典;若Vn與所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息的子字符串完全不匹配,或所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息與Vn的子字符串完全不匹配,則將Vn及其詞頻TF更新在所述用戶自定義分詞字典中;若Vn與所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息的子字符串匹配,或所述用戶自定義分詞字典和所述分詞工具默認分詞字典中的特征信息與Vn的子字符串匹配,且
TF(uDictm)>TF(Vn)>TF(dDictk)
其中,TF(uDictm)為所述用戶自定義分詞字典中的包含特征信息的字符串詞頻,TF(dDictk)為所述分詞工具默認分詞字典中的包含特征信息的字符串的詞頻,則將Vn及其詞頻TF更新在所述用戶自定義分詞字典中;
S2:輸入文本數據,通過所述特征信息表對所述文本數據進行匹配,保留所述文本數據在所述特征信息表中出現的特征信息,對所述文本數據中的非法序列信息進行刪除得到新的字符串;以及
S3:對加密后的所述用戶自定義分詞字典進行解密和加載,并通過所述用戶自定義分詞字典對所述新的字符串進行分詞。
2.根據權利要求1所述的文本預處理方法,其特征在于,所述加密算法包括AES加密算法。
3.根據權利要求1所述的文本預處理方法,其特征在于,所述步驟S2具體包括:
S21:遍歷所述特征信息表V={V1,V2,...,Vn}中的字符串Vi,查找Vi是否是所述文本數據的子字符串,若是,則查找Vi在所述文本數據中所出現的起始位置
ID={ID1,ID2,ID3,...,IDT},
并通過Vi的長度計算出Vi在所述文本數據中所出現的位置并存儲在數據庫中,否則查找Vi+1,循環步驟S21;
S22:對所述步驟S21進行修正以刪除所述文本數據中的非法序列信息的字符串;以及
S23:循環執行所述步驟S21和所述步驟S22,直到i=n。
4.根據權利要求3所述的文本預處理方法,其特征在于,對所述數據庫中的字符根據在所述文本數據中所出現的位置進行去重和排序,得到所述新的字符串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911289718.6/1.html,轉載請聲明來源鉆瓜專利網。





