[發明專利]基于主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法無效
| 申請號: | 201310029853.3 | 申請日: | 2013-01-25 |
| 公開(公告)號: | CN103092975A | 公開(公告)日: | 2013-05-08 |
| 發明(設計)人: | 李石君;湯小月;余偉;楊莎;劉晶;丁永剛;胡亞慧;王凱 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 共識 覆蓋率 網絡 社區 垃圾 信息 檢測 過濾 方法 | ||
技術領域
本發明屬于數據質量的研究領域,特別涉及一種基于主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法。
背景技術
主題共識:根據用戶行為特征研究領域的一項重要結論,網絡社區中針對同一主題進行交流的普通用戶所發布的內容都與該主題相關,而存在不良意圖的用戶則會發布一些與主題無關的內容。J.M.Reagle在其專著《GoodFaith?Collaboration?--The?Culture?of?Wikipedia》中分析指出,網絡社區中發布各自不同觀點的用戶之所以能夠圍繞同一主題成功進行溝通交流,是因為彼此之間具有對該主題的基本共識,并且相信與自己交流的對方也同樣會根據這一基本共識發布回復內容[1]。而行業內最大的網絡共建社區維基百科的發起人JimGiles也承認,維基百科是一個基于主題共識而建立的網站[2]。這些用戶行為特征研究領域的相關成果為本項目提出的方法提供了理論基礎。一般的,在網絡社區中,一個主貼及其對應的所有回復貼應當圍繞著同一主題共識進行交流。
文本內容的特征值與特征向量:一段文本內容可以用它的一些屬性來表示其特征,這些可以用來標識文本內容的特征屬性,被稱為文本內容的特征值[3]。文本所包含的字詞集合、詞頻、詞序等,都屬于該文本內容的特征值。將一段文本內容以一組特征值所組成的特征向量來表示,是利用計算機進行文本挖掘得以實施的基礎。
詞袋算法:詞袋算法是將文本內容用不同詞匯的出現次數組成的向量進行的數學化表示的一種方法[4]。其主要思路是:以全部文本內容中所出現的全部詞匯集合作為詞典,以詞典里各個詞匯在某段文本內容中的出現次數(即詞頻)作為元素,將所有詞匯所對應的元素組合起來成為一個數學向量,使得這個數學向量能夠表示該段文本內容的詞匯與詞頻特征,從而得到這段文本內容的詞頻向量。由于傳統的詞袋算法沒有考慮詞匯之間的順序而導致詞序這一重要文本標識信息丟失,因此本項目將在詞匯單元的基礎上,利用雙詞匯串作為基本的詞袋單元[5],從而在詞袋算法中引入對詞匯順序的考慮,對各段文本內容建立標識更為準確的詞頻向量。此處需要注意的是,在詞袋算法中,由于詞典的大小是固定的,因此即使是不同的文本內容,其對應的詞頻向量長度也是相同的。
文本分類:文本分類,其方法可以歸結為根據待分類數據的某些特征來進行匹配,是數據挖掘相關研究中的一項重要內容。文本分類一般包括了文本的表達、分類器的選擇與訓練、分類結果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統計、特征抽取等步驟。目前較為通用的文本分類方法是基于機器學習理論的方法。統計學習方法需要一批由人工進行了準確分類的文檔作為學習的材料(稱為訓練集,注意由人分類一批文檔比從這些文檔中總結出準確的規則成本要低得多),再由計算機從這些文檔中挖掘出一些能夠有效分類的規則,這個過程被形象的稱為訓練,而總結出的規則集合常常被稱為分類器。訓練完成之后再對待檢測的文檔進行分類時,便使用這些分類器來進行。主流的機器學習方法包括決策樹[6],Bayes[7],神經網絡,支持向量機(SVM)[8],線性最小平方擬合[9],k-NN,遺傳算法,最大熵[10]等。本項目主要采用支持向量機(SVM)算法來建立文本分類模型,判斷待檢測的文本內容是否為垃圾信息需要過濾。
網絡社區垃圾信息的檢測與過濾:目前的網絡社區垃圾檢測算法一般會考察待發布內容的一些基本特征或者固定模式,如文本的長度、敏感詞數量、作者可信度等。Potthast等人針對編輯內容(包括文本、結構、鏈接、多媒體)和編輯操作(插入、替換及刪除)的特征,采用了邏輯回歸模型來檢測無效的編輯內容[11]。Smets等學者用部分匹配的壓縮模型對Wikipedia社區中一個小時出現的新增內容進行分類,并查驗其中的垃圾信息[12]。而SiChi.Chin等人用的則是統計語言模型[13]。除此之外,West等研究者用到了網頁的meta數據,根據作者的聲譽來估計新發布內容的可信度,其中作者的聲譽是通過發帖頻率、發帖位置和注冊信息來度量的[14]。然而上述檢測方法沒有考慮到同一主題下發帖內容的趨同性,因此,對于那些發布內容與正常發帖相似因而顯得較為隱蔽的垃圾信息,這些方法的檢測準確率和召回率都不高。
參考文獻:
[1]J.M.Reagle.Good?Faith?Collaboration--The?Culture?of?Wikipedia(Web?edition).The?MIT?Press,Cambridge,MA.2011.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310029853.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:磷擴散爐抽風管
- 下一篇:一種微極距離子膜電解槽





