[發明專利]一種多視圖網絡垃圾頁面檢測方法有效
| 申請號: | 201110424701.4 | 申請日: | 2011-12-16 |
| 公開(公告)號: | CN102521369A | 公開(公告)日: | 2012-06-27 |
| 發明(設計)人: | 張化祥 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視圖 網絡 垃圾 頁面 檢測 方法 | ||
1.一種多視圖web?spam檢測方法,其特征是,該方法包括如下步驟:
步驟1:首先獲取訓練數據中所有正常頁面和spam頁面的內容視圖及鏈接視圖;
步驟2:然后獲取待檢測頁面的內容視圖及鏈接視圖;
步驟3:將步驟1中所有正常頁面的內容視圖及鏈接視圖各自構造矩陣,得到正常內容矩陣和正常鏈接矩陣;
步驟4:將步驟1中所有spam頁面的內容視圖及鏈接視圖各自構造矩陣,得到spam內容矩陣及spam鏈接矩陣;
步驟5:用待檢測頁面的內容視圖及鏈接視圖各自構造矩陣,得到待檢測內容矩陣及待檢測鏈接矩陣;
步驟6:利用正常內容矩陣和待檢測內容矩陣求解權重矩陣W-,利用spam內容矩陣及待檢測內容矩陣求解權重矩陣W+;
步驟7:利用正常鏈接矩陣及權重矩陣W-求解近似矩陣B1,利用spam鏈接矩陣及權重矩陣W+求解近似矩陣B2;
步驟8:利用步驟7中的近似矩陣B1和待檢測鏈接矩陣求解正常范數E-,利用近似矩陣B2和待檢測鏈接矩陣求解spam范數E+;
步驟9:比較正常范數E-與spam范數E+的大?。蝗粽7稊敌∮趕pam范數,則待檢測頁面為正常頁面;若正常范數大于spam范數,則待檢測頁面為spam頁面;若兩者相等,則待檢測頁面隨機識別為正常頁面或spam頁面;
步驟10:如果待檢測頁面被識別為正常頁面,就被保留下來,否則將待檢測頁面從頁面庫中刪除,檢測結束。
2.如權利要求書1所述的一種多視圖web?spam檢測方法,其特征是,所述的步驟6中,求解權重矩陣W-的公式如下:
min||[Ax]-[A-]W-||2
s.t.||W-||2=1
公式表示在滿足約束條件||W-||2=1的情況下,求解使得||[Ax]-[A-]W-||2取得最小值的權重矩陣W-;該最小化表示通過權重W-與[A+]構造出的內容矩陣[A-]W-與待測頁面的內容矩陣[Ax]間的差異性盡可能小。
3.如權利要求書1所述的一種多視圖web?spam檢測方法,其特征是,所述的步驟6中,求解權重矩陣W+的公式如下:
min||[Ax]-[A+]W+||2
s.t.||W+||2=1
公式表示在滿足約束條件||W+||2=1的情況下,求解使得||[Ax]-[A+]W+||2取得最小值的權重矩陣W+;該最小化表示通過權重W+與[A+]構造出的內容矩陣[A+]W+與待測頁面的內容矩陣[Ax]間的差異性盡可能小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110424701.4/1.html,轉載請聲明來源鉆瓜專利網。





