[發明專利]一種結合評論關系網絡圖的微博垃圾評論識別方法有效
| 申請號: | 201710351745.6 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN107239512B | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 周可;李春花;潘媛媛 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953;G06F16/2458;G06F17/27 |
| 代理公司: | 武漢臻誠專利代理事務所(普通合伙) 42233 | 代理人: | 宋業斌 |
| 地址: | 430074 湖北省*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 評論 關系 網絡圖 垃圾 識別 方法 | ||
1.一種結合評論關系網絡圖的微博垃圾評論識別方法,其特征在于,包括如下步驟:
(1)從微博平臺爬取訓練集、測試集、以及博文語料庫,根據與微博平臺中的微博評論相關的主體以及主體之間的關系構建評論關系網絡圖模型,并根據爬取的訓練集和測試集對構建的評論關系網絡圖進行處理,以生成基于Neo4j開源軟件的評論關系網絡圖;
(2)使用開源的全文搜索引擎為爬取的博文語料集建立索引,使用建立的索引執行博文語料集的搜索,并根據搜索返回的結果計算文本詞之間的相關度值;本步驟首先是從微博平臺收集博文語料集,然后為語料集中的每條博文文本創建一個獨立的文件,并使用Lucence全文搜索引擎為這些文件創建索引并提供全文搜索功能,以利用搜索返回的文件數目來計算文本詞之間的相關度;其中計算文本詞之間的相關度具體是采用以下公式:
其中u和v均表示文本詞,TextNum(u,v)表示同時包含文本詞u和v的博文數目,TextNum(u)表示包含文本詞u的博文數目,TextNum(v)表示包含文本詞v的博文數目;
(3)對評論關系網絡圖中的評論文本節點與博文文本節點進行基于結構信息的數據預處理操作,提取數據預處理操作結果中評論文本節點的基本元數據,并使用該基本元數據為相應節點設置節點屬性值;
(4)針對評論關系網絡圖中的每個評論文本節點,計算其評論文本與對應博文之間的文本相關度,并根據該文本相關度值在評論關系網絡圖中為該評論文本節點的相關度屬性設置對應的相關度屬性值;
(5)根據步驟(1)中爬取的訓練集和步驟(4)得到的相關度屬性值構建初始評論文本分類器;
(6)根據步驟(5)構建的初始評論文本分類器對每個測試集中的評論文本進行類別判定,并將最終的判定結果增量反饋至初始評論文本分類器中繼續學習。
2.根據權利要求1所述的微博垃圾評論識別方法,其特征在于,
評論關系網絡圖中的節點包括用戶節點、博文文本節點、評論文本節點、以及文本詞節點;評論關系網絡圖中的節點關系包括關注關系、交互關系、發表關系、擁有關系以及相關關系。
3.根據權利要求1所述的微博垃圾評論識別方法,其特征在于,結構信息包括已經結構化的表情符號,評論文本節點的基本元數據包括評論文本的字重復率、URL鏈接、特殊字符數目以及連續數字。
4.根據權利要求3所述的微博垃圾評論識別方法,其特征在于,步驟(4)包括如下子步驟:
(4.1)對評論關系網路圖中的所有評論文本和博文文本進行中文分詞,對中文分詞得到的詞集列表進行實詞提取,并在評論關系網絡圖中對實詞提取的結果進行文本詞節點創建操作,以得到評論詞集列表和博文詞集列表;
(4.2)根據評論詞集列表和博文詞集列表構建評論文本與對應博文之間的文本相關度矩陣MRV:
該矩陣中任意一個元素ρij表示評論詞集列表中第i個文本詞與博文詞集列表中第j個文本詞之間的相關度,a表示評論詞集列表的長度,b表示博文詞集列表的長度,i為1到a之間的任意整數,j為1到b之間的任意整數;
(4.3)從步驟(4.2)得到的文本相關度矩陣中的每個行向量(ρi1,ρi2,…,ρij,...,ρib)中選擇最大值組成最大值集合(ρ1Max,ρ2Max,...,ρaMax),并根據該最大值集合得到評論文本節點的相關度屬性所對應的屬性值RV(X,Y)為:
其中X表示評論詞集列表,Y表示博文詞集列表,f表示文本詞在文本中的詞頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710351745.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數字化信息的整理方法
- 下一篇:一種用戶主頁管理方法、裝置及電子設備





