[發明專利]基于主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法無效
| 申請號: | 201310029853.3 | 申請日: | 2013-01-25 |
| 公開(公告)號: | CN103092975A | 公開(公告)日: | 2013-05-08 |
| 發明(設計)人: | 李石君;湯小月;余偉;楊莎;劉晶;丁永剛;胡亞慧;王凱 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 共識 覆蓋率 網絡 社區 垃圾 信息 檢測 過濾 方法 | ||
1.一種基于主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特征在于,包括以下步驟:
步驟1,數據準備:采集兩組以上的圍繞不同主題進行交流的主貼及相應的回復的文本內容,抽樣其中部分組的主貼與回復作為訓練集,其余作為待檢測集,對訓練集中的文本內容進行人工分類,判斷回復的文本內容是否與各自的主貼內容相關,不相關的視為無效的垃圾內容,分類的結果作為訓練數據集;
步驟2,計算詞頻向量:運用詞袋算法,將之前采集到的訓練集和待檢測集中的各個主貼和全部的回復內容全部以詞頻向量的形式表示;
步驟3,聚合得到主題共識的詞頻向量:對訓練集和待檢測集中的各組主貼與回復,聚合各組中所有文本內容對應的詞頻向量,得到圍繞各組內容主題的主題共識的詞頻向量;
步驟4,計算特征值,組合特征向量:計算訓練數據集和待檢測集中各文本內容的文本特征值,將文本特征值組合起來形成與文本內容相對應的特征向量,文本特征值包括主題共識覆蓋率和其他文本特征值,具體包括以下步驟,
步驟4.1,計算主題共識覆蓋率:以步驟3中聚合得到的主題共識的詞頻向量為基礎,計算各文本內容的主題共識覆蓋率;
步驟4.2,計算其他文本特征值:其他文本特征值包括文本長度、文本信息熵、文本作者可信度、敏感詞匯數量、包含鏈接數量中的一種或其組合;
步驟4.3,組合主題共識覆蓋率和各文本內容的其他文本特征值,形成特征向量;
步驟5,訓練文本分類器:采用以支持向量機模型為基礎的文本內容分類器,用訓練集中的各文本內容的特征向量作為樣本輸入,以步驟1中對這些文本內容的分類結果作為標準輸出,對支持向量機分類器進行反復訓練,直到分類器對訓練樣本的分類準確率達到95%以上;
步驟6,文本分類,檢測垃圾內容:對待檢測集中的各文本內容進行分類,以待檢測文本內容的特征向量作為輸入,用步驟5中已調好參數的支持向量機分類器進行分類,判斷該段待檢測文本內容是否為垃圾信息。
2.根據權利要求1所述的一種基于主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特征在于:所述步驟3中,聚合操作通過平均值聚合方法實現,即先對所有詞頻向量中各個對應位置上的元素求平均值,然后將不同位置上的元素的平均值組合成為一個新的向量:
設詞表空間用集合{w1,w2,...,wj,...,wN}表示,其中N為詞表空間大小,即預先設定的詞表中的詞匯數量,將第i個文本內容記為Di,文本中詞匯wj出現的次數即詞頻用‖wj‖i表示,各文本內容的詞頻向量依次表示為:
.
.
.
其中,K為圍繞同一個主題進行討論的全部帖子數量;
詞匯wj在所有文本中的詞頻的平均值為:
將通過平均值聚合法得到的主題共識表示為Gm,所對應的主題共識詞頻向量用表示,則:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310029853.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:磷擴散爐抽風管
- 下一篇:一種微極距離子膜電解槽





