[發明專利]一種基于多類特征融合的新興熱點話題檢測系統有效
| 申請號: | 201810170864.6 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108399241B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 廖祥文;陳國龍;殷明剛;楊定達 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/284;G06F40/211;G06N3/04;G06Q50/00;G06K9/62 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 融合 新興 熱點話題 檢測 系統 | ||
1.一種基于多類特征融合的新興熱點話題檢測系統,其特征在于,包括:
一數據預處理模塊,用于對微博文本進行預處理;
一分層序列模型,用于訓練雙向循環神經網絡模型,通過使用雙向的LSTM網絡,訓練輸入的微博文本;
一詞序列編碼層,用于對句子中的各個詞語向量化,形成初步的向量表示;
一句子級別特征求解層,用于對微博句子構建靜態特征向量,與該層的神經網絡動態特征進行鏈接,形成微博句子向量表示;
一話題級別特征求解層,用于對話題構建靜態特征向量,與該層的神經網絡動態特征進行鏈接,形成話題的向量表示;
一話題預測模塊,用于對話題進行預測,經過softmax層輸出各個話題是新興熱點話題和非新興熱點話題的概率,并得到預測概率
在所述詞序列編碼層,對于一個句子的詞序列wit,t∈[1,T],將詞序列中的詞通過詞嵌入方法映射到向量中,嵌入矩陣為(We,xij)=Wexij;通過雙向循環神經網絡BiRNN匯總來自雙向的詞的信息得到詞的表示,并將詞的表示中的上下文信息合并;雙向循環神經網絡BiRNN包括一個向前的網絡RNN用來從wi1到wiT讀取句子si;還有一個向后的網絡RNN用來從wiT到wi1讀取句子si;通過連接向前隱藏狀態和向后隱藏狀態得到詞wit的隱藏表示hit,其包含了句子中圍繞詞wit的總體信息,也即
在所述句子級別特征求解層,通過微博當前時刻的評論數和轉發數來表示內容特征,經過對一微博的信息采集及計算,得到該微博各個時刻的評論數集合Reply及轉發數集合Retweet,且分別通過如下方式獲取:
其中,表示i時刻,微博t的轉發數;表示i時刻,微博t的評論數;
在所述話題級別特征求解層,為了識別新興熱點話題,提取話題每個時刻點的新興特征,包括:轉發數、用戶數、微博數量、微博數量變化量的泊松值、用戶權威值、微博影響力累積值、話題熱度值以及新穎值;
在所述話題級別特征求解層,記話題T從第一篇微博被檢測到當前時刻t有n個時間窗口;
記feature1是話題T在n個時間窗口內的轉發數增長率:
其中,Rti為話題T在第i個時間窗口時的轉發次數;
記feature2是話題T在n個時間窗口內的用戶數增長率:
其中,Ui表示話題T在第i個時間窗口時的參與用戶數量;
記feature3是話題T在n個時間窗口內的評論數增長率:
其中,Repi表示話題T在第i個時間窗口時的評論數;
記話題T對應的用戶集合為UT={u1,u2,...,um},對于話題T,每個用戶ui在話題T中的權威值通過如下方式獲取:
其中,numi表示用戶ui發表的相關微博數;fi表示在UT中是ui的粉絲的數量;rei表示ui相關微博被轉發總數;fansi表示用戶ui的粉絲數;fansmax為粉絲數最多的用戶粉絲數量;
記話題T對應的微博集合為TW={tw1,tw2,...,twm},記feature4是話題T的相關微博累計值增長率:
其中,effecti表示話題T在第i個時間窗口時的累積影響力;auth(twi)表示微博twi對話題T的權威值;auth(ui)表示微博twi作者的權威值;Uretweet表示微博twi轉發用戶集合;auth(u)表示戶用戶ui的轉發用戶集合中用戶的權威值;
記為話題T在第i個時間窗口時的新穎值,為熱度值:
其中,wordkey表示當前計算時間段內的關鍵詞集合,userkey表示當前計算時間段內的高權威值用戶集合;
記feature7是話題T在n個時間窗口內的微博數量增長率;feature8是話題T在第n個時間窗口時微博數量變化的泊松值,通過如下獲取:
其中,Ni表示話題T在第i個時間窗口時的微博數量;λ為預設個數時間窗口內微博數量變化的均值;Δtw為當前時間窗口微博數據變化量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810170864.6/1.html,轉載請聲明來源鉆瓜專利網。





