[發明專利]基于Simhash技術的文檔反作弊方案在審
| 申請號: | 201710016463.0 | 申請日: | 2017-01-10 |
| 公開(公告)號: | CN108287851A | 公開(公告)日: | 2018-07-17 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 長沙云昊信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410011 湖南省長沙市芙蓉區朝*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 作弊 維度 大規模數據 文檔相似性 處理效率 單詞意義 核心算法 算法獲取 文檔特征 單詞權 用戶維 算法 互聯網 衡量 重復 改進 服務 | ||
本發明針對現在互聯網重復文檔反作弊嚴重,公開了以Simhash技術的文檔反作弊方案;本方案以Simhash算法為文檔判重的核心算法為基礎對該算法獲取文檔特征的過程進行改進,將單詞意義作為衡量單詞權重的一個考量因素;針對64位文檔Simhash簽名,提供用戶維度、全文維度和黑庫維度的文檔判重服務,并可基于全文和段落兩種粒度進行文檔相似性比較;本方案對大規模數據有很高的處理效率,能處理海量文檔的需求。
技術領域
本發明屬于互聯網技術領域,是一種Simhash算法技術開發的文檔反作弊方案。
背景技術
隨著互聯網廣泛使用,網絡上的重復文檔越來越多;在互聯網中,大量相似文檔是很常見的現象,大量重復文檔小僅會降低產品質量,且對用戶小友好,如何避免大量重復或相近文檔出現是我們而對的一個難題,通過Simhash技術我們可以解決以上問題。
發明內容
本方案技術如下:
1.結合目前在文檔反作弊方而的需求,開發了Simhash的海量文檔反作弊技術,通過改進的Simhash算法可對外部請求做出實時響應;研究包括新實例注冊,實例數據導入,相似文檔查找;文檔判重可基于用戶、全文、黑庫維度的判重策略;在粒度上,支持全文和段落粒度的Simhash判重;支持冷熱數據的處理;文檔反作弊技術建立在海量數據基礎上,目前每個實例可以支持2億文檔的規模;另一方而,通過對冷熱數據的處理策略,可以使實例的數據維持在一個比較穩定的范圍內,不會因為實例本身數據的增長而過快增長;
2.基于全文的Simhash判重實現:基于全文的Simhash判重,是指文檔判重的粒度為整個文檔,即根據整個文檔的內容生成Simhash簽名,然后根據計算Simhash簽名的海明距離判斷文檔的相似性;該種方式,首先,基于文檔全文計算出文檔的Simhash值,并計算出與待檢測文檔海明距離為4以內的文檔;最后,根據請求參數,決定是否需要重新設置被匹配文檔的失效時間;
3.基于段落的Simhash判重實現:對文檔做基于全文的Simhash判重,其粒度較大,很容易被作弊者繞過,如在原文前后加上一段,或中間串一段文本,都會導致海明距離變大;在計算精度要求比較高的場介,需要更細粒度的簽名計算,例如基于段落的簽名計算;基于段落的Simhash判重,其與基于全文Simhash判重的小同點是,需要對待處理文檔進行分段,然后對每段求Simhash簽名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙云昊信息科技有限公司,未經長沙云昊信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710016463.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本分類模型的優化方法及裝置
- 下一篇:一種新型數據庫網上商城系統的設計





