[發(fā)明專利]一種大規(guī)模文檔相似性檢測方法有效
| 申請?zhí)枺?/td> | 201810251626.8 | 申請日: | 2018-03-26 |
| 公開(公告)號: | CN108595517B | 公開(公告)日: | 2021-03-09 |
| 發(fā)明(設計)人: | 王誠;王宇成 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大規(guī)模 文檔 相似性 檢測 方法 | ||
1.一種大規(guī)模文檔相似性檢測方法,其特征在于,包括如下步驟:
S1、輸入文檔集,計算文檔集中文檔其他信息的相似度,所述文檔其他信息包括文檔關鍵字、文檔的標簽以及文檔的引用文獻;
S2、文檔集中每一篇文檔內容對應一個初始化為0、長度為f的簽名S,和一個初始化為0的f維向量V;
S3、通過NLPIR分詞系統(tǒng)對文檔內容進行分詞處理,過濾掉語氣詞、助詞,并去掉干擾符號后將文檔內容轉換為一組特征詞;
S4、特征詞x的權重綜合使用TF-IDF技術和單詞的主題相關性計算,將中文術語長度函數(shù)作為特征詞x的主題相關性函數(shù),中文術語長度函數(shù)為
其中,x表示特征詞的長度,
特征詞x的權重計算公式為
其中,tfx,j×idfx表示關鍵詞x在文檔j的TF-IDF值,len(x)為單詞x的主題相關性函數(shù);
S5、將所有特征詞使用相同的哈希函數(shù)映射為長度為f的簽名h,遍歷h的每一位,若h的第i位為1,i介于1到f之間,V的第i位加上該特征詞的權重,否則減去;
S6、遍歷V,如果V的第i位大于0,簽名S的第i位設為1,否則設為0,最終生成的簽名S就是文檔內容對應的Simhash簽名值;
S7、將文檔內容對應的Simhash簽名值分為n塊,對同塊的簽名值使用相同的哈希函數(shù),映射到桶,檢查每一個桶中的元素,判斷元素數(shù)量有沒超過(1+μ1)×AVEn,其中AVEn為桶中元素的平均值,μ1為權重,桶中元素數(shù)量超過的話進行二次哈希;
S8、同一個桶的文檔作為候選對,先使用文檔內容對應的Simhash簽名值進行海明距離的計算,然后使用第一步文檔其它信息的相似度綜合計算文檔間的相似度,文檔間的相似度的計算公式為
其中Haming(A,B)表示A,B兩篇文檔內容的海明距離,minHash(A,B)表示A,B兩篇文檔其它信息的相似度,μ2的取值為0.8~0.9;
S9、判斷同一個桶中文檔之間的相似度是否小于m值,
若同一個桶中文檔之間的相似度小于m值,即輸出為相似文檔,
若同一個桶中文檔之間的相似度不小于m值,即輸出為非相似文檔。
2.根據(jù)權利要求1所述的大規(guī)模文檔相似性檢測方法,其特征在于,S1中所述計算文檔集中文檔其他信息的相似度,包括如下步驟:
S11、提取文檔中的其他信息,并將提取出的其他信息用集合的形式表示,將這一系列集合組成特征矩陣;
S12、使用MinHash的方法計算特征矩陣對應列之間的jaccard相似度。
3.根據(jù)權利要求2所述的大規(guī)模文檔相似性檢測方法,其特征在于,S12中所述使用MinHash的方法計算特征矩陣對應列之間的jaccard相似度,包括如下步驟:
S121、對特征矩陣進行N次隨機打亂生成簽名矩陣;
S122、選用的N個隨機哈希函數(shù)為hi(x)=(x+i)modN(i=1,2,3ΛN),其中,x表示特征詞的長度,
通過簽名矩陣對應列之間的jaccard相似度來估計特征矩陣對應列之間的jaccard相似度。
4.根據(jù)權利要求1所述的大規(guī)模文檔相似性檢測方法,其特征在于:S9中所述m值為0.25。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810251626.8/1.html,轉載請聲明來源鉆瓜專利網。





