[發明專利]基于微內容相似度的反垃圾方法無效

申請號：	200710156184.0	申請日：	2007-10-23
公開（公告）號：	CN101159704A	公開（公告）日：	2008-04-09
發明（設計）人：	胡天磊;陳珂;陳剛;壽黎但;汪源	申請（專利權）人：	浙江大學
主分類號：	H04L12/58	分類號：	H04L12/58;G06F17/30
代理公司：	杭州求是專利事務所有限公司	代理人：	林懷禹
地址：	310027浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于內容相似垃圾方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及互聯網微內容的反垃圾方法，特別涉及一種基于微內容相似度的反垃圾方法。

背景技術

Blog是繼Email、BBS、ICQ之后出現的第四種網絡交流方式，是網絡時代的個人“讀者文摘”，是以超級鏈接為武器的網絡日記，是代表著新的生活方式和新的工作方式，更代表著新的學習方式。但是，在反垃圾郵件的技術日漸成熟的現在，將Blog評論作為散布廣告和宣傳的手段也越來越受到商家和普通網友的歡迎。這導致Blog上的垃圾評論越來越多，極大地浪費了網絡帶寬，Blog擁有者和閱讀者的時間，以及系統資源，使使用者不厭其煩，已經成為阻礙Blog普及的一大難題。

目前常用的反垃圾評論的技術和方法有：

1)置詞組過濾，對一些敏感的詞語進行過濾或屏蔽，但是這種過濾對于敏感詞語的變種防范能力要差一些，如拆字等，并且隨著詞庫的不斷增大，維護和運行效率都受到影響。但這是一種最為快捷的方法，可以起到立竿見影的防范效果。

2)設置校驗碼，通過對校驗碼進行合法性校驗來防止機器人提交。不過目前機器人還是可以通過OCR或者窮舉的方法進行滲透，即使是特意修改的版本，只要下功夫就可以找到方法破解。同時給正常用戶也帶來了一些障礙。

3)檢查Refer，通過HTTP協議中的Refer字段過濾掉那些未訪問頁面而直接進站評論的連接，這也是防盜鏈的方法之一，效率很高。但如果使用特殊修改過的工具偽裝HTTP協議進行提交，此方法將束手無策。

4)控制連續提交間隔，此舉防止惡意機器人對數據庫進行飽和攻擊，減小服務器負擔，但不能治本，屬于被動的消極防御。

5)基于內容評分，實現閾值分割，智能判斷是否為垃圾評論。此方法最為科學合理，但需要服務器做大量的處理，增加了服務器負擔，若再連接到遠程服務器，服務質量可能因網絡而無法保證。

因此以上方法都不能完全滿足在線實時鑒別垃圾評論的需求。

發明內容

本發明目的在于提供一種基于微內容相似度的反垃圾方法。

本發明解決其技術問題采用的技術方案是，該方法的步驟如下：

1)通過將人為鑒別為垃圾的評論進行聚類，產生聚類垃圾文件，包含多個垃圾分類；

2)使用垃圾鑒別器根據聚類垃圾文件，對未知評論進行鑒別。

所述的垃圾評論聚類過程為：

1)聚類垃圾文件初始為空；

2)當有新的人為鑒別為垃圾的垃圾評論時，如下條件與步驟有選擇性的加入到聚類垃圾文件中：

第一步從所有垃圾分類中任意選取一條垃圾評論作為該垃圾分類的典型樣本；

第二步新垃圾評論與所有垃圾分類的典型樣本進行相似度評分；

第三步對第二步中與未知垃圾擁有最高相似度評分的典型樣本所在垃圾分類，新垃圾評論評論再與該垃圾分類所有垃圾進行評論相似度評分，計算其最高相似度得分；

第四步若最高相似度得分小于某指定閾值，則將新垃圾評論作為一個新的垃圾分類；否則若最高相似度得分小于另一指定閾值則將新垃圾評論評論加入到已有分類中作為一個新垃圾評論樣本；否則忽略該新垃圾評論。

所述的垃圾鑒別算法步驟如下：

1)從所有垃圾分類中任意選取一條垃圾評論作為該垃圾分類的典型樣本；

2)未知評論與所有垃圾分類的典型樣本進行相似度評分；

3)對上步驟2)中與未知垃圾擁有最高相似度評分的典型樣本所在垃圾分類，未知評論再與該垃圾分類所有垃圾進行評論相似度評分；

4)若未知評論與上述垃圾分類所有垃圾進行評論相似度評分的最大值超過指定閾值，則判定未知評論為垃圾評論。

本發明具有的有益效果是：

避免了待處理垃圾評論與所有已聚類垃圾進行相似度比較，有效地減少了評論相似度的比較次數，提高了垃圾鑒別和聚類垃圾文件維護的效率，能夠適應互聯網上海量垃圾鑒別的性能需求。

附圖說明

圖1是本發明的基于垃圾相似度的反垃圾方法流程圖。

圖2是本發明的將垃圾評論插入聚類垃圾文件的算法流程圖。

圖3是本發明的垃圾鑒別器對未知評論進行鑒別的算法流程圖。

具體實施方式

本發明對于評論相似度的概念定義如下：

詞：不可分割的語義單元；

高頻詞：類似“的”、“啊”的無語義，需要被過濾掉的詞語；

評論：詞的有限集合，將原始評論進行分詞，過濾掉高頻詞后的結果；

評論的詞個數：該評論詞集合的勢——該集合所包含的元素個數；

評論的“交”：詞集合的交運算；

評論的“并”：詞集合的并運算；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江大學，未經浙江大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200710156184.0/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

H 電學

H04 電通信技術
H04L 數字信息的傳輸，例如電報通信
H04L12-00 數據交換網絡
H04L12-02 .零部件
H04L12-28 .以通路配置為特征的，例如LAN[局域網]或WAN[廣域網]
H04L12-50 .電路交換系統，即系統在通信期間通路具有完全永久性
H04L12-54 .存儲轉發交換系統
H04L12-64 .混合交換系統

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】