[發明專利]一種基于異質圖隨機游走的中文微博客觀點探測方法有效
| 申請號: | 201410504376.6 | 申請日: | 2014-09-28 |
| 公開(公告)號: | CN104268230B | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 陳國龍;廖祥文;黃弈超 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州元創專利商標代理有限公司35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 異質圖 隨機 游走 中文 博客 觀點 探測 方法 | ||
1.一種基于異質圖隨機游走的中文微博客觀點探測方法,其特征在于,包括以下步驟:
步驟1:按話題采集微博帖子,形成多個以話題為單位的微博集合;對按話題采集到的微博帖子進行預處理,去除噪聲,形成詞的集合的形式;
步驟2:從微博中識別出話題的關鍵詞:計算微博中每個詞對于相應話題的權重,然后所有詞根據權重的大小進行排序,將各話題中排序結果的前K個詞作為相應話題的關鍵詞;
步驟3:基于圖模型探測微博中針對話題的主流觀點:構建每條微博帖子的特征向量,然后利用微博用戶、微博帖子和關鍵詞之間的關系,以微博用戶、微博帖子、關鍵詞為節點構建出微博圖,再通過隨機游走算法計算微博圖中各節點的得分,最終得到針對各話題的微博帖子的排序列表;
在步驟2中,采用類TF*IDF計算每個詞對于相應話題的權重方法如下:
tfj(wi)=log ni,j
其中,t表示微博集合中按話題劃分的子集,tfj(wi)表示第i個詞在第j個話題的微博集合中出現的頻次,T代表話題的個數;
然后按照tfj(wi)*idf(wi)值的大小來描述第i個詞對于第j個話題的重要性,選取排名靠前的詞得到話題相關的關鍵詞集合;
在步驟3中,所述微博帖子的特征向量由兩部分構成:
a)微博帖子中包含的關鍵詞;
b)按小時劃分的時間戳信息;
在步驟3中,所述微博圖的構建方法,包括以下步驟:
步驟a1;分別以微博用戶、微博帖子、關鍵詞為節點,根據微博用戶之間的關注與被關注關系,將微博用戶節點相連;根據微博用戶與微博帖子之間的發布關系,將微博用戶節點與微博帖子節點相連;根據微博用戶發布的微博帖子與關鍵詞之間的包含關系,將微博用戶節點與關鍵詞節點相連;
步驟a2:根據微博帖子之間的相似度關系,將余弦相似度大于0的微博帖子節點相連;根據微博帖子與關鍵詞之間的包含關系將微博帖子節點與關鍵詞節點相連;
步驟a3:根據關鍵詞在同一微博帖子的共現關系,將關鍵詞節點相連;
在步驟3中,所述微博圖中各節點的得分的計算方法為:
Score(r)(w)、Score(r)(p)、Score(r)(u)分別表示關鍵詞、微博帖子和微博用戶節點在第r輪迭代時候的評分;Sim(pi,pj)表示微博帖子pi和pj的余弦相似度,adj[pi]表示與微博帖子pi相連的微博集合;
Pui表示微博用戶ui發布的微博帖子,w表示微博用戶ui發布微博用到的關鍵詞,flw[ui]表示微博用戶ui的粉絲集合,frd[uj]表示微博用戶uj關注的微博用戶集合;
Pwi表示包含有關鍵詞wi的微博帖子,wj是和關鍵詞wi出現在相同微博帖子中的關鍵詞,adj[wj]表示和關鍵詞wi相連的關鍵詞集合,Uwi表示使用了關鍵詞wi的微博用戶集合;
通過迭代上述的公式收斂得到微博帖子、微博用戶、關鍵詞三類節點的排序結果。
2.根據權利要求1所述的一種基于異質圖隨機游走的中文微博客觀點探測方法,其特征在于,在步驟1中,所述去除噪聲的規則為去除微博中的以下內容:
a)網頁鏈接;
b)特殊字符;
c)廣告相關的特殊字符;
d)表達情感的擬聲詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410504376.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生態覆被特征表征方法
- 下一篇:打包臺架





