[發明專利]一種基于社會媒體用戶動態行為的微博主題挖掘方法有效
| 申請號: | 201810624731.1 | 申請日: | 2018-06-16 |
| 公開(公告)號: | CN109033069B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 賀瑞芳;張雪菲;趙文麗;朱永凱;黃靜 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社會 媒體 用戶 動態 行為 主題 挖掘 方法 | ||
1.一種基于社會媒體用戶動態行為的微博主題挖掘方法,其特征在于,包括以下步驟:
(1)構建用戶對話網絡
將一個用戶看作對話網絡G中的一個節點v,同時將該用戶所有發表過的微博聚集成一個文檔Mv=(w1,w2,…,wn),其中wi(i=1,2,3…n)表示Mv的第i個單詞,n為文檔Mv的詞語個數;文檔Mv作為該用戶所指向節點v的文本信息;若節點v代表的用戶轉發過對話網絡G中節點u代表的用戶發表過的微博,則將節點u和v相連,以此操作構建出用戶對話網絡G=(V,E,T),其中V為對話網絡G中節點的集合,是對話網絡G中邊的集合,T代表了節點附帶的文本信息;
(2)動態交互建模
將每個節點v表示為基于結構表示v(s)和基于文本表示v(t)的兩部分拼接;即節點v的表示為(v屬于),其中表示拼接符號,d為節點表示v的維度;
基于結構表示v(s):采用神經網絡語言模型將基于結構表示v(s)看作待學習的參數,為了最大化一個節點與其鄰居共現的概率,通過最小化公式(1)學習基于結構表示v(s);
公式(1)中Ls為為了學習基于結構表示v(s)的損失函數值,表示第i個節點的基于結構的表示,表示第(i+j)個節點的基于結構的表示,窗口大小為k,條件概率的形式化見公式(2)
基于文本表示v(t):通過相互注意力機制學習得到基于本文表示v(t),相互注意力機制利用池化操作挖掘節點對的主題信息,給定一個節點v的文本信息Mv,將其中每個詞語替換為相應的詞嵌入從而得到文本表示序列Sv=(w1,w2,…,wm),其中d′表示詞嵌入的維度,m表示Sv中詞語的個數,對于給定文本表示序列Sv,利用卷積操作對其進行編碼,見公式(3)
xi=C·(Sv)i:i+l-1+b (3)
公式(3)表示卷積矩陣對Sv在窗口大小為l的第i個窗口進行卷積操作,其中b為偏置向量,對于文本表示序列Su進行同樣的卷積操作,卷積操作之后得到矩陣和m和n分別是文本表示序列Su和Sv的長度,作為相互注意力機制的輸入;相互注意力機制通過公式(4)計算關聯矩陣
F=relu(PTAQ) (4)
其中矩陣是相互注意力機制中待學習的參數,采用relu作為激活函數,關聯矩陣F的元素Fi,j表示矩陣P的第i列向量P·i和矩陣Q的第j列向量Q·j之間的關聯得分,之后分別沿著橫向和縱向對關聯矩陣F進行池化操作,形式化分別為公式(5)(6),采用平均池化操作:
公式(5)中為矩陣F的第i行第1列元素Fi,1、第i行第2列元素Fi,2直至第i行第n列元素Fi,n的平均值;公式(6)中為矩陣F的第1行第j列元素F1,j,第2行第j列元素F2,j直至第m行第j列元素Fm,j的平均值;經平均池化后,產生矩陣P和Q各自對應的池化向量和之后利用歸一化指數函數將池化向量g(p)和g(q)概率化,分別得到向量a(p)和a(q),向量a(p)的第i個元素計算見公式(7);
公式(7)中是池化向量g(p)的第t個元素;
通過公式(8)、(9)計算分別得到節點u和v的基于文本表示u(t)和v(t);
u(t)=Pa(p) (8)
v(t)=Qa(q) (9)
為獲得基于文本表示,通過最小化目標函數公式(10)
Lt(e)=αlogp(v(t)|u(t))+βlogp(v(t)|u(s))+γlogp(v(s)|u(t)) (10)
公式(10)中Lt(e)表示為了學習基于文本表示的損失函數值,α表示節點u基于文本表示u(t)對節點v基于文本表示v(t)的影響系數,β表示節點u基于結構表示u(s)對節點v基于文本表示v(t)影響系數,γ表示節點u基于文本表示u(t)對節點v基于結構表示v(s)影響系數;由于節點v代表用戶轉發或者回復了節點u所代表的用戶,即u是原因v是結果,因此公式(10)計算節點u的表示對節點v的表示產生的影響,公式(10)中的條件概率利用公式(2)進行計算;
將節點u的節點表示u和節點v的節點表示v拼接得到邊表示為
(3)用戶注意力建模
邊表示是由該條邊上的兩個節點表示拼接而來且一個節點代表一個用戶,故用戶對話題的影響力轉化為利用注意力機制對該用戶所指代的節點表示進行打分,因此利用歸一化指數函數進行打分得到用戶注意力向量a(e)的第i個元素計算見公式(11)
公式(11)中ei是邊表示e的第i個元素,et是邊表示e的第t個元素;
為將同一條邊上的節點對主題信息及用戶對主題影響力相結合,將邊表示e和用戶注意力向量a(e)進行點對點相乘,該操作激活邊表示e使其成為交互感知態,從而得到交互感知邊表示ia,形式化見公式(12)
公式(12)中e1、e2、e2d為分別為邊表示e的第1,2,2d個元素,為分別為用戶注意力向量a(e)的第1,2,2d個元素;
(4)主題生成
采用神經變分推理推斷文檔-主題分布以及主題-詞語分布φw=(p(w|t1),p(w|t2),…,p(w|tK)),其中ti表示第i個主題,表示一個文檔,w表示一個詞語,表示文檔屬于第i個主題的概率大小,p(w|ti)(i=1,2,..,K)表示詞語w屬于第i個主題的概率大小;
文檔-主題分布:給定交互感知邊表示ia,首先將其映射至隱空間henc中;
henc=relu(W(ih)ia+b(ih)) (13)
其中W(ih)和b(ih)均是編碼器的參數,將relu函數作為激活函數,假設交互感知邊表示ia的先驗分布和后驗分布為高斯分布;高斯分布均值和方差通過線性變換獲得,見公式(14)(15)
其中W(hμ)、W(hσ)、b(hμ)、b(hσ)為編碼器的參數;
潛在語義向量通過重參數化得到,形式化見公式(16);
其中先驗分布∈是均值為μ0,方差為的高斯分布;文本設定超參數μ0=0和利用歸一化指數函數將潛在語義向量概率化從而得到文檔-主題分布形式化和公式(7)相同;
主題-詞語分布:根據公式(17)計算條件概率
故文本中將主題-詞語分布φw看作解碼器的參數,見公式(18)
之后通過解碼器重構交互感知邊表示,新的交互感知邊表示i′計算如公式(19),其中W(hi)和b(hi)均是解碼器的參數,
i′=relu(W(hi)hdec+b(hi)) (19)
對于主題生成,該部分的目標函數為公式(20)
公式(20)中利用KL散度衡量變分分布q(θ,z|ia)和真實后驗分布接近程度,其中表示為了學習文檔-主題分布和主題-詞語分布的損失函數值;
通過最小化整體目標函數公式(21)學習參數,以挖掘微博潛在主題
L為整體目標函數的損失函數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810624731.1/1.html,轉載請聲明來源鉆瓜專利網。





