[發明專利]一種基于機器學習的社交網絡垃圾用戶過濾方法在審
| 申請號: | 201410332643.6 | 申請日: | 2014-07-14 |
| 公開(公告)號: | CN104090961A | 公開(公告)日: | 2014-10-08 |
| 發明(設計)人: | 鄭相涵;陳國龍;曾志鵬 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 社交 網絡 垃圾 用戶 過濾 方法 | ||
1.一種基于機器學習的社交網絡垃圾用戶過濾方法,其特征在于,包括以下步驟:
步驟S1:針對一社交網絡,定義需要從所述社交網絡的社交用戶中提取的特征向量,構建一垃圾消息過濾規則集;所述垃圾消息過濾規則集中定義有多個垃圾關鍵字,各垃圾關鍵字對應有一分值,從而可根據社交消息中出現垃圾關鍵字的個數、頻次,計算社交消息的垃圾關鍵字得分;
步驟S2:從所述社交網絡中取一定數量的社交用戶作為訓練樣本,所述社交用戶包括正常用戶和垃圾用戶,然后通過信息增益算法對各訓練樣本發布的社交消息進行特征提取,得到各訓練樣本的特征向量中除平均垃圾關鍵字得分之外的所有元素;
步驟S3:根據垃圾消息過濾規則集,計算各訓練樣本發布的所有社交消息的垃圾關鍵字得分,進而求得各訓練樣本的平均垃圾關鍵字得分,得到各訓練樣本完整的特征向量;
步驟S4:將步驟S3得到的各訓練樣本的特征向量,輸入支持向量機進行訓練,得到垃圾用戶過濾模型;
步驟S5:利用所述垃圾用戶過濾模型對待測用戶進行檢測,判斷待測用戶是否為垃圾用戶。
2.根據權利要求1所述的一種基于機器學習的社交網絡垃圾用戶過濾方法,其特征在于,步驟S1中,所述社交用戶的特征向量V2為:
V2=[關注數,粉絲數,消息數,雙向關注數,收藏數,注冊天數,關注數/粉絲數,日發消息數,平均被轉發次數,平均被評論次數,平均被贊次數,平均URL鏈接數,平均圖片數,平均話題數,平均的用戶數,平均垃圾關鍵字得分,原創消息比例,垃圾消息比例]。
3.根據權利要求1所述的一種基于機器學習的社交網絡垃圾用戶過濾方法,其特征在于,步驟S1中,所述垃圾消息過濾規則集的建立方法如下:
步驟S101:從所述社交網絡中獲取一定數量的垃圾消息;
步驟S102:對每條垃圾消息進行中文分詞,每條垃圾消息得到一個詞語列表{key1,?key2,?…,?keyi,?…},keyi表示所述垃圾消息的第i個分詞;
步驟S103:對每個詞語列表采用信息增益算法計算信息增益值,每個詞語列表得到一個鍵值對集合{key1:IG(key1),?key2:IG(key2),?…,?keyi:IG(keyi),?…},IG(keyi)表示第i個分詞的信息增益值;
步驟S104:將不同的鍵值對集合進行合并,其中對不同鍵值對集合中均有出現的分詞的信息增益值進行累加,作為合并后的鍵值對集合對應于該分詞的信息增益值;
步驟S105:對于合并后的鍵值對集合,根據信息增益值從大到小對分詞進行排序,取出前n個分詞作為垃圾消息過濾規則集的垃圾關鍵字,分詞的信息增益值作為垃圾關鍵字的分值,從而建立所述垃圾消息過濾規則集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410332643.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息呈現方法及裝置
- 下一篇:一種基于領域本體的語義信息檢索系統及方法





