[發明專利]一種基于微博社交的人物關系可視化方法在審
| 申請號: | 202010169044.2 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111506824A | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 陳樟樟;陳佳舟;黃可妤;秦緒佳;汪雨薇 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/951;G06F16/33;G06Q50/00;G06F40/289 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社交 人物 關系 可視化 方法 | ||
1.基于微博社交的人物關系可視化方法,包括以下步驟:
步驟1、根據用戶的微博ID爬取多名用戶的用戶信息、關注數據及微博文本;
步驟2、對微博文本數據進行預處理,然后進行中文分詞,再運用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型提取文本主題,并分析微博文本相似性;
步驟3、通過解析用戶關注數據、微博文本數據以及微博文本相似度,構建社交關系網絡;
步驟4、通過力導引布局、打包布局等可視化方式展示社交關系網絡。
2.如權利要求1所述的基于微博社交的人物關系可視化方法,其特征在于:所述步驟2中,首先對獲取的微博文本數據進行清洗,刪除錯誤或重復的數據,再使用基于TextRank方法的“結巴”(jieba)中文分詞對微博文本進行分詞,TextRank方法主要用于抽取關鍵詞;然后將分詞后的微博文本數據通過LDA挖掘出文本主題,再通過增量Gibbs采樣(GibbsSampling)算法計算微博文本主題在主題詞上的概率分布,Gibbs采樣是馬爾可夫鏈蒙特卡爾理論(MCMC)中用來獲取一系列近似等于指定多維概率分布(比如2個或者多個隨機變量的聯合概率分布)觀察樣本的算法;最后,使用Jensen-Shannon散數的倒數來衡量文本與文本之間的主題相似度:
其中,vi,vj表示微博文本的主題概率分布,JS(vi||vj)表示vi,vj的Jensen-Shannon散度,DKL(vi,vk)表示vi,vj的Kullback-Leibler散度。
3.如權利要求1所述的基于微博社交的人物關系可視化方法,其特征在于:所述步驟3中,根據用戶關注數據,對一個用戶u,假設其關注了n個用戶,表示為F=(u1,u2,…,un),由u和F組成的社交網絡G可表示為有向圖G=(F,E),其中E={eij|ui∈F,uj∈F,ui關注uj},表示用戶間關注關系的集合;再根據微博文本,如果ui轉發了uj的一條微博或者微博中@(提及)他(她),則認為兩者之間有一條邊,為邊設定權值,權值大小為兩者間的交互次數,此時E就可以表示為E′={eij|ui∈F,uj∈F,ui與uj產生了交互};最后,根據微博文本相似度,若ui與uj之間的文本相似度高于閾值,則認為兩者存在相似的愛好或價值取向,兩者之間有一條邊,邊的權值為兩者的文本相似度,這樣E就可以表示為E″={eij|ui∈F,uj∈F,ui與uj存在相似愛好}。
4.如權利要求1所述的基于微博社交的人物關系可視化方法,其特征在于:所述步驟4中,通過節點鏈的力導引方式展示,以節點表示用戶,邊表示節點間的聯系;在節點鏈視圖中,以節點的顏色表示用戶的價值取向,若節點的顏色越接近則表示用戶的相似度越高,以邊的粗細表示用戶間交往的次數多少,越粗代表了用戶間的交往越頻繁;通過打包圖可視化方法展示對象間共同關注信息;用大圓包含識別對象的所有共同關注,用中圓包含該對象與其他任一對象的共同關注,用小圓包括不同類別的共同關注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010169044.2/1.html,轉載請聲明來源鉆瓜專利網。





