[發明專利]一種面向社交網絡的熱點事件預測方法有效
| 申請號: | 202111032195.4 | 申請日: | 2021-09-03 |
| 公開(公告)號: | CN113806534B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 田玲;許毅;惠孛;張栗粽;羅光春;冀柯曦;樊美琦 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06F40/289;G06N3/042;G06N3/0464;G06N3/048;G06Q10/04;G06Q50/00 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 甘茂 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 社交 網絡 熱點 事件 預測 方法 | ||
1.一種面向社交網絡的熱點事件預測方法,包括以下步驟:
步驟1、對源數據進行數據預處理得到文本數據,并對每條文本數據進行0、1分類標記,獲得樣本數據;
步驟2、根據預定時序將樣本數據構建為帶有節點特征的時序圖結構數據,利用圖卷積神經網絡對時序圖結構數據進行處理,通過圖卷積模塊進行卷積操作,獲得聚合關鍵詞語鄰域信息的文本特征向量;
步驟3、通過維度注意力機制對步驟2所得文本特征向量進行編碼,捕捉其時序相關性,獲得聚合關鍵詞語鄰域信息與時序信息的文本特征向量;
具體包括如下步驟:
步驟3.1、基于維度注意力機制對文本特征向量進行編碼,利用可學習的權重矩陣將上一時序文本特征向量與當前時序文本特征向量進行可學習的線性變換:
其中,與為權重矩陣,與為模型參數;
再將變換結果以預定比例進行拼接組合,獲得拼接文本特征向量
步驟3.2、利用全局平均池化方法計算文本特征向量各個維度的特征統計量:
其中,F代表文本特征維度,n代表詞語個數;表示關鍵詞語j的第f維特征;
再利用激活函數處理特征統計量,獲得文本特征摘要
其中,σ則為sigmod激活函數,W1與W2均為權重矩陣;
步驟3.3、采用文本特征摘要對拼接文本特征向量進行縮放,獲得文本特征向量
步驟4、對步驟3所得文本特征向量進行可學習的線性變換,獲得最終文本特征向量,并利用分類器進行分類預測計算,獲得預測結果。
2.按權利要求1所述面向社交網絡的熱點事件預測方法,其特征在于,所述步驟1具體包括如下步驟:
步驟1.1、對源數據集進行隨機采樣,再對采樣后數據依次進行事件合并、噪聲清洗、時序切分預處理,再利用jieba工具對文本進行分詞處理,再利用TF-IDF方法對關鍵詞語進行提取過濾,再利用GloVe算法對關鍵詞語進行預訓練、生成關鍵詞語的初始特征向量,得到文本數據;
步驟1.2、將預測問題定義為事件是否變為熱點的二分類任務,根據設定的事件轉發量閾值對文本數據進行標簽標記,類別標簽包括0和1,獲得具有標簽的樣本數據。
3.按權利要求1所述面向社交網絡的熱點事件預測方法,其特征在于,所述步驟2具體包括如下步驟:
步驟2.1、設置時序kt,kt∈[1,T],T為時序切分的總數;
步驟2.2、根據點互信息(PMI)算法,計算關鍵詞語之間的相互依存關系:
其中,Dt為時序內文本集合總數,dt(i,j)為在時序內關鍵詞語i與關鍵詞語j同時出現的文本總數,dt(i)與dt(j)分別為在時序內關鍵詞語i與關鍵詞語j至少出現一次的文本總數;
將關鍵詞語以圖結構的形式進行建模,構建帶有節點特征的時序圖結構,并將時序圖結構以鄰接矩陣的形式表示At:
步驟2.3、利用圖卷積網絡(GCN)模塊對時序圖結構中節點進行卷積處理,捕獲鄰域信息,獲得圖卷積編碼的文本特征向量
其中,g為ReLU激活函數,Ht表示初始特征向量,表示鄰接矩陣At歸一化處理后的對稱鄰接矩陣,W(t)、b(t)均為模型參數。
4.按權利要求1所述面向社交網絡的熱點事件預測方法,其特征在于,所述步驟4具體包括如下步驟:
步驟4.1、對文本特征向量進行可學習的線性變換,獲得最終文本特征向量
其中,WT為權重矩陣,bT為模型參數;
步驟4.2、利用分類器進行分類預測計算,獲得預測結果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111032195.4/1.html,轉載請聲明來源鉆瓜專利網。





