[發明專利]一種文本預處理方法、裝置及存儲介質有效
| 申請號: | 201911289718.6 | 申請日: | 2019-12-13 |
| 公開(公告)號: | CN111090992B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 劉曉芳;昝景園;趙建強;張輝極 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289;G06F16/33;G06F21/60 |
| 代理公司: | 廈門福貝知識產權代理事務所(普通合伙) 35235 | 代理人: | 陳遠洋 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 預處理 方法 裝置 存儲 介質 | ||
本發明公開了一種文本預處理方法和裝置,通過構造特征信息表,通過特征信息表對用戶自定義分詞字典進行更新,通過加密算法對特征信息表和更新后的用戶自定義分詞字典進行加密;輸入文本數據,通過特征信息表對文本數據進行匹配,保留文本數據在特征信息表中出現的特征信息,對文本數據中的非法序列信息進行刪除得到新的字符串;以及對加密后的用戶自定義分詞字典進行解密和加載,并通過用戶自定義分詞字典對新的字符串進行分詞。通過特征信息表可以自動更新用戶自定義分詞字典特征信息詞頻,減化人工繁瑣的配置過程。對用戶自定義詞典進行加密,修改Jieba中字典讀取加載方式,實現對加密用戶自定義分詞字典的讀取,增強用戶自定義分詞字典的安全性。
技術領域
本發明涉及自然語言處理領域,具體涉及一種文本預處理方法、裝置及存儲介質。
背景技術
互聯網信息技術的普及為自然語言處理中文本分類、摘要提取、詞性標注、知識圖譜等任務提供了豐富的文本語料資源。自然語言處理任務需先將文本數據預處理、分詞,文本中出現包含中、英文、數字、特殊字符等多種字符相互混合的特征信息,若這類特征信息也同時出現在網址、分享鏈接等文本中,便成為噪聲信息即非法序列信息,這些信息嚴重干擾分詞預處理流程甚至影響文本處理任務?,F有預處理、分詞工具如Jieba分詞,主要是針對特征信息分詞,雖然Jieba分詞工具可通過自定義詞典進行特征信息分割,但是無法區分分割出的是特征信息還是非法序列信息。其次,當特征信息和非法序列信息同時存在文本中時會給去除這些非法序列信息帶來困難。再者,Jieba用戶自定義字典即特征信息的分詞精度依賴于字典中的詞頻,對于現有自定義詞典詞頻的設計需人工查找Jieba工具中默認詞典手動設置詞頻,但默認詞典中可能出現特征信息的多個子字符串,若人工查找不完全,會導致設置詞頻不合理,無法對特征信息進行準確分詞。最后,Jieba是一種開源的分詞方法,自定義詞典未經過任何加密處理直接寫在用戶自定義字典中,對特征信息在使用過程中存在安全性問題。分詞作為中文文本處理的第一步,其準確性尤其是專業詞匯短語分詞的準確性會影響到后續文本處理任務。
現有分詞方法或分詞工具可以通過用戶自定義字典或個性化配置自定義特征信息與正則項進行分詞,但是無法在分詞的同時區分是特征信息還是非法序列信息,從而導致文本中出現的非法序列信息難以通過去停用詞等方法徹底去除。其次,Jieba分詞需人工查找Jieba工具中默認詞典的特征信息詞頻,再對用戶自定義字典手動設置詞頻,需對多個特征信息進行查找,費時費力,若查找不全,詞頻配置低于默認詞典的特征信息會導致分詞不準。最后,將特征信息直接加入未加密的自定義字典中,使用過程中存在安全問題,而開源Jieba未提供用戶自定義字典的加密和解密方法。
有鑒于此,設計出一種新的文本預處理方法和裝置是亟待解決的問題之一。
發明內容
針對上述提到的自然語言處理分詞過程中預處理特征信息多余或缺失、自定義字典更新詞頻設置繁瑣、不準確及安全性低等問題。本申請的實施例的目的在于提出了一種文本預處理方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請的實施例提供了一種文本預處理方法,包括以下步驟:
S1:構造特征信息表,通過特征信息表對用戶自定義分詞字典進行更新,通過加密算法對特征信息表和更新后的用戶自定義分詞字典進行加密;
S2:輸入文本數據,通過特征信息表對文本數據進行匹配,保留文本數據在特征信息表中出現的特征信息,對文本數據中的非法序列信息進行刪除得到新的字符串;以及
S3:對加密后的用戶自定義分詞字典進行解密和加載,并通過用戶自定義分詞字典對新的字符串進行分詞。
在一些實施例中,步驟S1包括:
S11:讀取用戶自定義分詞字典和分詞工具默認分詞字典,在特征信息表中增加新的特征信息Vn;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911289718.6/2.html,轉載請聲明來源鉆瓜專利網。





