[發明專利]一種基于社會媒體用戶動態行為的微博主題挖掘方法有效
| 申請號: | 201810624731.1 | 申請日: | 2018-06-16 |
| 公開(公告)號: | CN109033069B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 賀瑞芳;張雪菲;趙文麗;朱永凱;黃靜 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社會 媒體 用戶 動態 行為 主題 挖掘 方法 | ||
本發明公開了一種基于社會媒體用戶動態行為的微博主題挖掘方法,包括如下步驟:1)構建用戶對話網絡;2)利用網絡表示學習建模動態交互,得到融合了內容和結構且與其鄰居結點相關的用戶表示;3)引入注意力機制建模用戶對主題的影響力,得到交互感知邊表示;4)交互感知邊表示作為神經變分推理的輸入,從而挖掘一致性更佳的主題。該微博主題挖掘方法通過建模動態交互和用戶對主題影響力,得到的微博主題相比于現有模型在相關分數值評價指標上取得更好的表現。
技術領域
本發明涉及自然語言處理以及社會媒體數據挖掘技術領域,具體為一種基于社會媒體用戶動態行為的微博主題挖掘方法。
背景技術
社會媒體網站(如新浪微博等)的出現使得互聯網上內容的形式大大改變。微博允許用戶在其上發布和瀏覽信息,并具有一些很強的社交屬性功能,如轉發和回復功能。微博平臺上存儲著海量的文本數據,并且每天都在以驚人的速度增長。微博文本內容包含了大量的信息,從中挖掘主題信息可以用來進行話題推薦、突發事件檢測、精準營銷等。目前,文本主題挖掘技術應用于新聞、文章等長文本數據上已經具有了較好的效果。但是,微博文本長度短,通常被限制在140字以下,每條微博信息稀疏以及人們在微博上的用詞隨意等特點大大地增加了微博文本處理的難度。因此,這要求面向微博的主題挖掘技術需要采用與傳統主題挖掘所不同的方法。
目前,微博主題挖掘的相關研究主要包括:(1)利用集聚策略。該方法將短文本按照某種規則集聚成一個偽長文檔,降低了短文本的數據稀疏性。如首先將同一作者發表的微博合并為一篇長文檔,然后利用三層貝葉斯結構的主題模型挖掘潛在主題;(2)利用詞嵌入(word embedding)。該方法利用詞嵌入含有豐富語義信息的特點建模主題,在一定程度上解決了短文本缺乏語義信息的問題。為了深層次地理解短文本語義,該方法將短文本看作由詞嵌入組成的集合,并假設主題-單詞分布為多維高斯分布,之后利用分層貝葉斯模型推斷主題;(3) 利用社會網絡上下文信息。這類方法引入社會網絡結構信息,領用微博所在社會網絡中的上下文信息對微博文本內容進行補充,從而發現更多的詞語共現特征。
以上方法要么僅對微博文本內容建模要么同時考慮對微博文本內容和社會網絡靜態結構信息,忽略了社會網絡的動態特征。如一個用戶與不同的用戶交互時可能談論不同的主題,同時談論同一主題的用戶對這個主題產生的影響也是不同的。這些用戶行為對于微博主題挖掘任務提供了有利的線索。
發明內容
本發明的目的是為了克服現有技術中的不足,提供一種基于社會媒體用戶動態行為的微博主題挖掘方法,該方法為了挖掘用戶動態行為,構建了基于轉發和回復關系的用戶對話網絡,其中節點代表用戶,邊代表具有轉發或者回復關系的用戶對。該方法首先利用網絡表示學習建模動態用戶行為,進而引入注意力機制建模用戶對主題的影響力,最后通過神經變分推理輸出一致性更佳的微博主題。該方法挖掘的微博主題相比于現有模型在相關分數值 (Coherence Score)評價指標中是最優的。
本發明的目的是通過以下技術方案實現的:
一種基于社會媒體用戶動態行為的微博主題挖掘方法,包括如下步驟:
(1)用戶對話網絡構建
將一個用戶看作對話網絡G中的一個節點v,同時將該用戶所有發表過的微博聚集成一個文檔Mv=(w1,w2,...,wn),其中wi(i=1,2,3…n)表示Mv的第i個單詞,n為文檔Mv的詞語個數;文檔Mv作為該用戶所指向節點v的文本信息;若節點v代表的用戶轉發過對話網絡G中節點u代表的用戶發表過的微博,則將節點u和v相連,以此操作構建出用戶對話網絡 G=(V,E,T),其中V為對話網絡G中節點的集合,是對話網絡G中邊的集合,T 代表了節點附帶的文本信息;
(2)動態交互建模
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810624731.1/2.html,轉載請聲明來源鉆瓜專利網。





