[發(fā)明專利]一種云計算的海量文檔相似檢測方法有效

申請?zhí)枺?/td>	201910821968.3	申請日：	2019-09-02
公開（公告）號：	CN110516212B	公開（公告）日：	2022-10-28
發(fā)明（設計）人：	王海濤;常春勤;曾艷陽;張霄宏	申請（專利權）人：	河南理工大學
主分類號：	G06F40/194	分類號：	G06F40/194;G06F16/182;G06F16/11
代理公司：	北京東方盛凡知識產權代理有限公司 11562	代理人：	賈耀淇
地址：	454003 河南***	國省代碼：	河南;41
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種計算海量文檔相似檢測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開一種云計算的海量文檔相似檢測方法，借助于分布式文件系統(tǒng)和并行數(shù)據(jù)庫，搭建云計算環(huán)境，然后將待檢測海量文檔集上傳到并行數(shù)據(jù)庫，語料庫中文本?術語關系集使用鍵值對方式保存到并行關系數(shù)據(jù)庫；待檢測文本經過去停用詞、分詞等預處理后，通過特征提取后獲得其特征向量，然后與并行數(shù)據(jù)庫中語料庫的特征向量進行相似度計算，產生相似度值；本發(fā)明適用于海量數(shù)據(jù)集的文本去重，具有運行效率高、運行時間短的優(yōu)點，解決了傳統(tǒng)相似檢測技術不能適用于海量文本數(shù)據(jù)集的缺陷。

技術領域

本發(fā)明涉及文檔相似性比較領域，特別是涉及一種云計算的海量文檔相似檢測方法。

背景技術

隨著網絡技術的進步，網絡上致大部分文檔可以被隨意轉載、傳播、修改等操作，這無意中更增加了文檔的主題信息提取、向量化表示、特征權重計算和相似度檢測的難度。為提高數(shù)據(jù)質量和信息傳播效率，為縮減不必要的資源耗費，提出一種高效的、可以處理海量文檔的去重方案勢在必行。

為解決海量文檔的去重問題，一種局部敏感哈希方法被提出，這種方法的最終目的是想通過理想的hash函數(shù)讓整個文檔的特征分布盡可能均勻，使近乎相同的內容產生近乎相似或相同的hash值，即可以通過hash值的相似程度來判斷文檔內容的相似程度。

另一種去重檢測算法(minhash)也經常使用，該算法會將文檔分詞后，存儲為一個矩陣，然后對這個矩陣的行(或列)進行多次隨機哈希，取每行的哈希結果最小值代表該行特征，以此類推，通過一串最小哈希值代替了整個矩陣，以此達到矩陣降維的目的，minhash應用很廣泛，計算速度也比較高，但該方法通常需要產生多個哈希函數(shù)以保證足夠的精確度，其計算哈希函數(shù)的開銷較大。

還可以引入ICTCLAS分詞器和TF-IDF算法，進而產生中文文檔的hash值，并通過漢明距離的比較，從而確定兩篇文檔是否為相似文檔。有學者提出一種綜合引用bloomfilter、trie樹以及simhash算法的方案，該方案分兩個階段完成，首先通過bloomfilter和trie樹進行完全去重，然后由simhash算法進行相似去重，但這些方法存在主要問題是映射過程中文檔特征容易丟失。因此目前急需一種海量中文文檔去重方案。

發(fā)明內容

本發(fā)明的目的是提供一種云計算海量文檔相似檢測方法，以解決上述現(xiàn)有技術存在的問題，使文檔特征不丟失的同時降低成本。

為實現(xiàn)上述目的，本發(fā)明提供了如下方案：本發(fā)明提供一種云計算的海量文檔相似檢測方法包括如下步驟：

步驟一、根據(jù)分布式文件系統(tǒng)和并行數(shù)據(jù)庫來搭建云計算環(huán)境，然后將待檢測文檔集上傳到云計算環(huán)境中；

步驟二、對待檢測文檔集進行去停用詞、分詞的預處理，將不同格式的文本文件轉換為格式一致的文本文件；

步驟三、將步驟二中文本變換為一個n維詞頻向量，即對所述文本進行詞頻向量的提取，然后SimHash算法生成向量指紋，所述指紋長度為64字節(jié)，獲得向量指紋后，以鍵值對的格式存儲到序列文件中，其中文件名為鍵，64位向量指紋為值；

步驟四、在待測文檔中，將所有特征向量加權，將特征權重作為加權系數(shù)，然后求和，則待檢測文件就采用加權和向量來表示，通過該向量與文檔集呈現(xiàn)角的度數(shù)，來判斷待測文件的相似度。

優(yōu)選的，預先定義一個重復度閾值，當兩個記錄的相似度大于等于閾值時，認為它們是相似重復記錄，相似度計算公式如下：

其中，v_i代表存在于記錄A和記錄B之間相同部分的記錄，W(v_i)代表v_i的數(shù)量，v_j代表構成記錄A和記錄B的所有記錄合并，W(v_j)代表v_j的數(shù)量。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于河南理工大學，未經河南理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】