[發明專利]一種基于深度生存分析的網絡話題爆發時間預測方法有效
| 申請號: | 202010738271.2 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111966829B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 田玲;羅光春;陳愛國;張栗粽;唐文佚;吳東東 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9532;G06F40/289 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 生存 分析 網絡 話題 爆發 時間 預測 方法 | ||
1.一種基于深度生存分析的網絡話題爆發時間預測方法,其特征在于,包括如下步驟,
步驟1、根據預設的時間區間數量,采集基于網絡話題的熱度時間序列數據和時變文本時間序列數據;
其中,熱度時間序列數據為:網絡話題在不同時間區間的熱度值;
時變文本時間序列數據為:網絡話題在不同時間區間所相關的文本;
步驟2、提取文本特征時間序列數據:
基于中文短文本分類數據集,訓練得到一個短文本分類器,并將訓練得到的短文本分類器去掉分類輸出層后的網絡模型作為文本特征提取器;
基于所述文本特征提取器獲取文本時間序列中的各文本的文本特征向量,得到文本特征時間序列;
步驟3、構建基于生存分析的深度學習模型:
所述深度學習模型包含數據融合模塊和深度生存模塊;
其中,數據融合模塊用于融合步驟1采集的時間序列數據和步驟2得到的文本特征時間序列,得到融合向量時間序列并輸入深度生存模塊;
深度生存模塊用于回歸預測,輸出網絡話題的離散風險率;
步驟4、訓練深度生存模塊:
基于預置的訓練數據對所述深度生存模塊進行深度學習訓練,當滿足預置的停止訓練條件時,得到訓練好的深度生存模塊做為爆發時間預測器;
其中,訓練時所采用的損失函數為:L=L1+L2,其中,損失函數的L1、L2分別為;
其中,Dun表示在觀察周期內已爆發的網絡話題集合,Dce表示在觀察周期內未爆發的網絡話題集合,u表示時間區間,zi表示網絡話題爆發時時刻τj表示觀察周期對應時長,表示網絡話題i在爆發時間zi所屬時間區間的離散風險率,分別表示網絡話題i、j在不同爆發時間區間的離散風險率,超參數α∈(0,1);
步驟5、基于爆發時間預測器輸出待預測的網絡話題爆發時間的預測結果:
對給定的待預測的網絡話題,基于預設的時間區間數量采集基于當前待預測的網絡話題的熱度時間序列數據、時變文本時間序列數據;
基于文本特征提取器提取待預測的網絡話題的文本特征時間序列數據,并將提取的文本特征時間序列數據與采集的熱度時間序列數據通過深度學習模型的數據融合模塊進行數據融合處理,得到待預測的網絡話題的融合向量時間序列并輸入爆發時間預測器;
基于爆發時間預測器輸出的待預測的網絡話題的離散風險率,得到離散生存概率,基于預置的爆發概率閾值,將首次低于所述爆發概率閾值的生存概率所對應的時間區間作為預測的網絡話題爆發時間。
2.如權利要求1所述的方法,其特征在于,爆發概率閾值的設置具體為:
根據訓練時深度生存模型輸出的離散風險率h={h1,h2,…,hm},根據公式計算離散生存概率St,得到離散生存概率S={S1,S2,…,Sm},其中,時間區間標識t=1,2,…,m,m為預設的時間區間數量;
對所有離散生存概率St,預設的間隔步長遞增設置爆發概率閾值,取預測準確度最高的值作為最終的爆發概率閾值。
3.如權利要求2所述的方法,其特征在于,間隔步長設置為0.0001。
4.如權利要求1所述的方法,其特征在于,步驟1中,網絡話題的熱度由網絡話題的總轉發量確定,即網絡話題的熱度與其總轉發量正相關,總轉發量越高,代表話題熱度越高。
5.如權利要求1所述的方法,其特征在于,步驟1中,網絡話題非時變文本包含話題源頭文本內容、隨時間變化的轉發文本內容。
6.如權利要求1所述的方法,其特征在于,步驟2中,訓練短文本分類器所采用的分類數據集為:基于微博的短文本文本數據,且分類標簽為支持和反對兩類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010738271.2/1.html,轉載請聲明來源鉆瓜專利網。





