[發(fā)明專利]一種Simhash算法的海量文檔反作弊技術(shù)方法在審
| 申請?zhí)枺?/td> | 201610588570.6 | 申請日: | 2016-07-25 |
| 公開(公告)號: | CN107656916A | 公開(公告)日: | 2018-02-02 |
| 發(fā)明(設(shè)計)人: | 余漫游 | 申請(專利權(quán))人: | 長沙有干貨網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410011 湖南省長沙市芙蓉區(qū)*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 simhash 算法 海量 文檔 作弊 技術(shù) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,是一種Simhash算法技術(shù)。
背景技術(shù)
在這個信息爆炸的時代,網(wǎng)絡(luò)上的重復(fù)文檔越來越多,據(jù)統(tǒng)計,互聯(lián)網(wǎng)上的重復(fù)網(wǎng)頁約占30%-45%;對網(wǎng)絡(luò)上的文檔進(jìn)行相似度判斷,并根據(jù)判定結(jié)果做相應(yīng)的處理,例如小子收錄、刪除等,成為互聯(lián)網(wǎng)技術(shù)發(fā)展的一個重要分支,在互聯(lián)網(wǎng)中,大量相似文檔是很常見的現(xiàn)象,大量重復(fù)文檔小僅會降低產(chǎn)品質(zhì)量,且對用戶小友好,如何避免大量重復(fù)或相近文檔出現(xiàn)是我們而對的一個難題。
發(fā)明內(nèi)容
Simhash算法山Google的Charikar提出,是將一篇文檔轉(zhuǎn)化為n位的簽名,通過比較簽名的相似度來計算原文檔的相似度;簽名越相近,則文檔越相似;因此,整個過程小會涉及到原文檔文本內(nèi)容的兩兩比較,就無需存儲這些海量的文檔內(nèi)容,因此該算法可以推廣到數(shù)以百億的文檔比較范圍;另外算法簡單易行,容易理解,但要達(dá)到理想的效果還需結(jié)介具體的需求處理;Simhash算法是當(dāng)前主流的近似文本檢測算法。
Simhash算法的海量文檔反作弊技術(shù)的設(shè)計-高速檢索技術(shù)設(shè)計:將每個64位的簽名分為四個部分,若兩簽名的海明距離小于3,通過抽屜原理可知,則必定有一個部分是相等,因此,可將64位的簽名平分為4個部分,每部分16位,將16位的二進(jìn)制作為key,將含有該16位key的簽名作為value存儲在redis中;對于一個待比較的簽名,均分為4個部分,每個部分作為key在redis中拉取value,再從被拉取出的value中計算海明距離,這種方法能大大縮小海明距離計算的范圍。
Simhash算法的海量文檔反作弊技術(shù)的設(shè)計-文檔特征權(quán)值計算:Simhash算法,以文檔中出現(xiàn)的單詞作為文檔的特征,單詞的頻率作為每個特征的權(quán)重;單詞的頻率,雖然是衡量文檔特征的一個重要指標(biāo),但是僅僅以頻率作為權(quán)重,還是會丟失一定量的信息(例如,對于語句,“夏天熱”,切分后的結(jié)果為,單詞“夏天”,頻率1,單詞“熱”,頻率1;雖然兩個單詞的頻率均為1,但此句話的核心是夏天,其代表著該句話更多的特征,因此,應(yīng)該給子該詞更大的權(quán)重;即從詞性的角度來說,名詞表征著文檔更多的特征;因此,可以將詞性作為衡量單詞權(quán)重的一個因素;規(guī)定在詞性方而,名詞權(quán)重最高,動詞次之,形容詞再次之,其余最低); 將詞性作為衡量單詞權(quán)重的一個因素,能夠更全而地表征文檔的特征,這樣所獲得的Simhash簽名值也更介理,進(jìn)而提高判斷文檔相似的準(zhǔn)確率。
Simhash算法的海量文檔反作弊技術(shù)的設(shè)計-Simhash簽名計算技術(shù), 文檔反作弊技術(shù)中文檔的Simhash簽名計算是其核心過程;本節(jié)介紹Simhash簽名計算的過程:
1、計算總體流程-Simhash簽名主要分為如下幾步:
1)如果請求的參數(shù)自接傳遞的是離散化的文檔特征,自接執(zhí)行第三步;如果請求參數(shù)是文檔內(nèi)容,執(zhí)行第二步;
2)獲得離散化后的文檔特征;
3)根據(jù)Simhash算法,計算文檔簽名;
2、獲取文檔特征:Simhash算法以離散化后的文檔特征作為基礎(chǔ),計算文檔的簽名;提取的文檔特征,越能表征原文檔的內(nèi)容的含義,生成的簽名就越有意義;傳統(tǒng)的Simhash以文檔中出現(xiàn)的單詞和單詞頻率作為文檔特征,會丟失一部分信息,本系統(tǒng)中將單詞的詞性也作為表征文檔特征的一個因素;同時為了提高計算的準(zhǔn)確率,本系統(tǒng)中還會對計算過程做一些基本的處理,例如文檔預(yù)處理等,本系統(tǒng)中,獲取文檔特征的主要步驟如下:
1)對文檔進(jìn)行預(yù)處理(可選);
2)對預(yù)處理后的文檔進(jìn)行分詞;
3)去停用詞(可選);
4)統(tǒng)計單詞頻率,獲取單詞詞性;
5)根據(jù)Simhash算法所述,計算單詞權(quán)重;
經(jīng)過以上5步,我們就可以從給定的文檔內(nèi)容,得到離散化后的文檔特征,為計算文檔Simhash值提供依據(jù);
3、其中的第一步,對文檔進(jìn)行預(yù)處理是可選的,即各個實例再發(fā)送請求的時候,可以根據(jù)自身的需求決定,是否需要對文檔進(jìn)行預(yù)處理,主要對文檔內(nèi)容按序做如下處理:
1)去html標(biāo)簽;
2)全角轉(zhuǎn)半角;
3)英文字母大寫轉(zhuǎn)小寫;
4)繁體轉(zhuǎn)簡體;
5)去空格;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長沙有干貨網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)長沙有干貨網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610588570.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準(zhǔn)實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法





