[發(fā)明專利]一種云計算的海量文檔相似檢測方法有效
| 申請?zhí)枺?/td> | 201910821968.3 | 申請日: | 2019-09-02 |
| 公開(公告)號: | CN110516212B | 公開(公告)日: | 2022-10-28 |
| 發(fā)明(設計)人: | 王海濤;常春勤;曾艷陽;張霄宏 | 申請(專利權)人: | 河南理工大學 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F16/182;G06F16/11 |
| 代理公司: | 北京東方盛凡知識產權代理有限公司 11562 | 代理人: | 賈耀淇 |
| 地址: | 454003 河南*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算 海量 文檔 相似 檢測 方法 | ||
本發(fā)明公開一種云計算的海量文檔相似檢測方法,借助于分布式文件系統(tǒng)和并行數(shù)據(jù)庫,搭建云計算環(huán)境,然后將待檢測海量文檔集上傳到并行數(shù)據(jù)庫,語料庫中文本?術語關系集使用鍵值對方式保存到并行關系數(shù)據(jù)庫;待檢測文本經過去停用詞、分詞等預處理后,通過特征提取后獲得其特征向量,然后與并行數(shù)據(jù)庫中語料庫的特征向量進行相似度計算,產生相似度值;本發(fā)明適用于海量數(shù)據(jù)集的文本去重,具有運行效率高、運行時間短的優(yōu)點,解決了傳統(tǒng)相似檢測技術不能適用于海量文本數(shù)據(jù)集的缺陷。
技術領域
本發(fā)明涉及文檔相似性比較領域,特別是涉及一種云計算的海量文檔相似檢測方法。
背景技術
隨著網絡技術的進步,網絡上致大部分文檔可以被隨意轉載、傳播、修改等操作,這無意中更增加了文檔的主題信息提取、向量化表示、特征權重計算和相似度檢測的難度。為提高數(shù)據(jù)質量和信息傳播效率,為縮減不必要的資源耗費,提出一種高效的、可以處理海量文檔的去重方案勢在必行。
為解決海量文檔的去重問題,一種局部敏感哈希方法被提出,這種方法的最終目的是想通過理想的hash函數(shù)讓整個文檔的特征分布盡可能均勻,使近乎相同的內容產生近乎相似或相同的hash值,即可以通過hash值的相似程度來判斷文檔內容的相似程度。
另一種去重檢測算法(minhash)也經常使用,該算法會將文檔分詞后,存儲為一個矩陣,然后對這個矩陣的行(或列)進行多次隨機哈希,取每行的哈希結果最小值代表該行特征,以此類推,通過一串最小哈希值代替了整個矩陣,以此達到矩陣降維的目的,minhash應用很廣泛,計算速度也比較高,但該方法通常需要產生多個哈希函數(shù)以保證足夠的精確度,其計算哈希函數(shù)的開銷較大。
還可以引入ICTCLAS分詞器和TF-IDF算法,進而產生中文文檔的hash值,并通過漢明距離的比較,從而確定兩篇文檔是否為相似文檔。有學者提出一種綜合引用bloomfilter、trie樹以及simhash算法的方案,該方案分兩個階段完成,首先通過bloomfilter和trie樹進行完全去重,然后由simhash算法進行相似去重,但這些方法存在主要問題是映射過程中文檔特征容易丟失。因此目前急需一種海量中文文檔去重方案。
發(fā)明內容
本發(fā)明的目的是提供一種云計算海量文檔相似檢測方法,以解決上述現(xiàn)有技術存在的問題,使文檔特征不丟失的同時降低成本。
為實現(xiàn)上述目的,本發(fā)明提供了如下方案:本發(fā)明提供一種云計算的海量文檔相似檢測方法包括如下步驟:
步驟一、根據(jù)分布式文件系統(tǒng)和并行數(shù)據(jù)庫來搭建云計算環(huán)境,然后將待檢測文檔集上傳到云計算環(huán)境中;
步驟二、對待檢測文檔集進行去停用詞、分詞的預處理,將不同格式的文本文件轉換為格式一致的文本文件;
步驟三、將步驟二中文本變換為一個n維詞頻向量,即對所述文本進行詞頻向量的提取,然后SimHash算法生成向量指紋,所述指紋長度為64字節(jié),獲得向量指紋后,以鍵值對的格式存儲到序列文件中,其中文件名為鍵,64位向量指紋為值;
步驟四、在待測文檔中,將所有特征向量加權,將特征權重作為加權系數(shù),然后求和,則待檢測文件就采用加權和向量來表示,通過該向量與文檔集呈現(xiàn)角的度數(shù),來判斷待測文件的相似度。
優(yōu)選的,預先定義一個重復度閾值,當兩個記錄的相似度大于等于閾值時,認為它們是相似重復記錄,相似度計算公式如下:
其中,vi代表存在于記錄A和記錄B之間相同部分的記錄,W(vi)代表vi的數(shù)量,vj代表構成記錄A和記錄B的所有記錄合并,W(vj)代表vj的數(shù)量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南理工大學,未經河南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910821968.3/2.html,轉載請聲明來源鉆瓜專利網。
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設備及存儲介質
- 一種海量不確定XML數(shù)據(jù)存儲方法





