[發明專利]一種信息全文檢索的數據去重清理方法及系統在審
| 申請號: | 201910280637.3 | 申請日: | 2019-04-09 |
| 公開(公告)號: | CN110147363A | 公開(公告)日: | 2019-08-20 |
| 發明(設計)人: | 何宬呈;趙鑫 | 申請(專利權)人: | 華迪計算機集團有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/335 |
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 姜麗樓 |
| 地址: | 100192 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索數據 去重 數據單元 信息全文 純文本 合法性 篩查 檢索 檢索系統 方式標記 格式處理 計算數據 文檔數據 摘要計算 敏感度 索引庫 比對 預設 采集 量化 威脅 合法 安全 保證 | ||
1.一種信息全文檢索的數據去重清理方法,其特征在于,所述方法包括:
對采集的初始的檢索數據中的每個數據單元進行去格式處理,以獲取無格式的純文本內容的檢索數據;
對所述無格式的純文本內容的檢索數據中的每個數據單元進行摘要計算,以獲取每個數據單元的摘要碼,并根據所述每個數據單元的摘要碼對所述無格式的純文本內容的檢索數據進行去重處理,以獲取經過去重處理的檢索數據;
按照預設的合法性篩查策略對所述經過去重處理的檢索數據中的每個數據單元進行合法性篩查,以獲取合法的檢索數據加入到索引庫。
2.根據權利要求1所述的方法,其特征在于,所述對采集的初始的檢索數據中的每個數據單元進行去格式處理,以獲取無格式的純文本內容的檢索數據,包括:
對采集的初始的檢索數據中的每個數據單元按照預設的信息類別進行分隔,以獲取無格式的純文本內容的檢索數據;其中,所述預設的信息類別包括:格式描述符、空格、特殊符號和正文。
3.根據權利要求1所述的方法,其特征在于,所述對所述無格式的純文本內容的檢索數據中的每個數據單元進行摘要計算,以獲取每個數據單元的摘要碼,并根據所述每個數據單元的摘要碼對所述無格式的純文本內容的檢索數據進行去重處理,以獲取經過去重處理的檢索數據,包括:
對所述無格式的純文本內容的檢索數據中的每個數據單元進行CRC摘要計算和MD5摘要計算,以獲取每個數據單元的CRC摘要碼和MD5摘要碼;
依次判斷每個數據單元的CRC摘要碼是否在備選庫中;
其中,若該數據單元的CRC摘要碼不在備選庫中,則將該數據單元存入數據庫;
若某個數據單元的CRC摘要碼在備選庫中,則判斷該數據單元的MD5摘要碼是否在備選庫中;若該數據單元的MD5摘要碼不在備選庫中,則將該數據單元存入備選庫;反之,直接舍棄該數據單元;
將備選庫中的數據單元作為經過去重處理的檢索數據。
4.根據權利要求1所述的方法,其特征在于,所述預設的合法性篩查策略,包括:
計算每個數據單元的敏感度值,并分別判斷每個數據單元的詞敏感度是否大于預設敏感度閾值,若是,則舍棄該數據單元,即該數據單元不加入索引庫;反之,則確定該數據單元為合法的檢索數據。
5.根據權利要求4所述的方法,其特征在于,所述計算每個數據單元的敏感度,包括:
根據每個數據單元中的不同敏感度級別的敏感詞的敏感度級別的權重和對應的匹配度級別的權重,確定每個數據單元的敏感度值;
其中,所述敏感度級別包括:高敏感度級、中敏感度級和低敏感度級;所述匹配度級別包括:高匹配度級、中匹配度級和低匹配度級。
6.一種信息全文檢索的數據去重清理系統,其特征在于,所述系統包括:
數據預處理模塊,用于對采集的初始的檢索數據中的每個數據單元進行去格式處理,以獲取無格式的純文本內容的檢索數據;
數據去重處理模塊,用于對所述無格式的純文本內容的檢索數據中的每個數據單元進行摘要計算,以獲取每個數據單元的摘要碼,并根據所述每個數據單元的摘要碼對所述無格式的純文本內容的檢索數據進行去重處理,以獲取經過去重處理的檢索數據;
數據合法性篩查模塊,用于按照預設的合法性篩查策略對所述經過去重處理的檢索數據中的每個數據單元進行合法性篩查,以獲取合法的檢索數據加入到索引庫。
7.根據權利要求6所述的系統,其特征在于,所述數據預處理模塊,對采集的初始的檢索數據中的每個數據單元進行去格式處理,以獲取無格式的純文本內容的檢索數據,包括:
對采集的初始的檢索數據中的每個數據單元按照預設的信息類別進行分隔,以獲取無格式的純文本內容的檢索數據;其中,所述預設的信息類別包括:格式描述符、空格、特殊符號和正文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華迪計算機集團有限公司,未經華迪計算機集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910280637.3/1.html,轉載請聲明來源鉆瓜專利網。





