[發明專利]一種多源數據文檔實時快速去重方法及系統有效
| 申請號: | 201811456999.5 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109635084B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 柴志偉;丑曉慧;許冠宇;宋樂安;許涵洋 | 申請(專利權)人: | 寧波深擎信息科技有限公司;上海深擎信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 鄒成嬌 |
| 地址: | 315200 浙江省寧波市鎮海區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 文檔 實時 快速 方法 系統 | ||
1.一種多源數據文檔實時快速去重方法,其特征在于,包括以下步驟:
接收當前文檔并對當前文檔進行過濾,得到過濾后的文檔數據;
通過局部敏感性hash算法,計算出文檔數據的特征字;
根據特征字和文檔數據,判斷當前文檔與數據庫存儲的之前文檔是否相似;
如果不相似,則將當前文檔的特征字和文檔數據存儲到數據庫,否則不存儲;
所述根據特征字和文檔數據,判斷當前文檔與數據庫存儲的之前文檔是否相似,具體步驟為:
計算當前文檔的特征字與之前文檔的特征字的海明距離,如果海明距離大于等于N,則當前文檔與之前文檔不相似,否則相似,并得到初步相似文檔;
計算當前文檔的正文內容與初步相似文檔的正文內容的字數差,如果字數差大于M,則當前文檔與初步相似文檔不相似,否則相似,并得到二度相似文檔;
所述根據特征字和文檔數據,判斷當前文檔與數據庫存儲的之前文檔是否相似,還包括:
提取當前文檔的關鍵詞和二度相似文檔的關鍵詞;
當前文檔的關鍵詞個數或二度相似文檔的關鍵詞個數小于等于3時,如果相同關鍵詞個數小于2,則當前文檔與二度相似文檔不相似,否則相似,并得到三度相似文檔;
當前文檔的關鍵詞個數和二度相似文檔的關鍵詞個數均是大于3時,如果相同關鍵詞個數小于3,則當前文檔與二度相似文檔不相似,否則相似,并得到三度相似文檔;
所述根據特征字和文檔數據,判斷當前文檔與數據庫存儲的之前文檔是否相似,還包括:
計算當前文檔的數據值占位量和三度相似文檔的數據值占位量,如果兩文檔的數據值占位量相同且數據不同,則當前文檔和三度相似文檔不相似,否則相似。
2.根據權利要求1所述的一種多源數據文檔實時快速去重方法,其特征在于,所述通過局部敏感性hash算法,計算出文檔數據的特征字,具體步驟為:
將文檔數據中的正文內容進行分詞,并得到如果干個詞;
通過詞頻統計方法統計出每個詞的權重;
將每個詞用Hash算法映射出一個hash值;
根據權重對每個詞的hash值進行加權計算,得到加權后的數字串;
將所有詞的數字串進行按位求和,得到最終的數字串;
將最終的數字串轉換為01形式的64位字節的特征字。
3.根據權利要求1所述的一種多源數據文檔實時快速去重方法,其特征在于,所述文檔數據包括文章標題、ID編號、正文內容和數據來源標識,所述將當前文檔的特征字和文檔數據存儲到數據庫,具體步驟為:
將當前文檔的特征字和編號ID組合成當前文檔的key值;
將當前文檔的文章標題、ID編號、正文內容、數據來源標識和key值存儲到redis數據庫。
4.根據權利要求3所述的一種多源數據文檔實時快速去重方法,其特征在于,在當前文檔與之前文檔進行相似比較前,從數據庫中提取出之前文檔的key值,根據key值得到之前文檔的特征字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波深擎信息科技有限公司;上海深擎信息科技有限公司,未經寧波深擎信息科技有限公司;上海深擎信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811456999.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





