[發明專利]混合新媒體下的熱點事件發現方法在審
| 申請號: | 202110444596.4 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN113343118A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 曹玖新;洪智高;劉佳 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F40/289;G06Q50/00 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 211100 江蘇省南京市江寧*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合 媒體 熱點 事件 發現 方法 | ||
1.一種混合新媒體下的熱點事件發現方法,其特征在于,包括如下步驟:
步驟1)對采集的數據進行新聞數據預處理,包括去除超文本鏈接,停用詞,標點符號以及數字無用信息,并利用HanLP自然語言處理工具進行分詞處理;
步驟2)將文檔按時序離散到各個時間片,時間間隔為1天,以便于后續的演化分析處理,所有事件均考察事件發生30天內的文檔,即30段時間切片;
步驟3)文本向量化,使用經過BERT預訓練的文檔表示,以提高話題的連貫性;
步驟4)話題建模,使用神經話題模型來進行話題建模,其中將輸入的詞袋表示替換為上下文嵌入;
步驟5)將步驟4)得到的話題建模后需要對話題進行合并工作;
步驟6)完成新聞門戶網站的事件檢測后,關聯每個事件在社交網絡中的微博內容及其用戶社交關系;
步驟7)計算該話題的熱度值,當熱度值超過一定的閾值時則判定其為熱點事件。
2.根據權利要求1所述的混合媒體環境下社會熱點事件的發現方法,其特征在于,所述步驟2)中時間片的劃分,對于處理時間在一段時間的演化及其熱度變化規律有重要的影響,在發明中將其固定在30天,也可以根據爬取新聞內容時間長度來自適應設置。
3.根據權利要求1所述的混合媒體環境下社會熱點事件的發現方法,其特征在于,所述步驟3)中文本向量化將輸入話題模型的詞袋表示替換為上下文嵌入,即在話題建模過程之前,引入了從BERT語言模型進行預訓練的文檔表示的神經編碼層,首先,通過調用bert_serving包自建話題語料庫的詞典并訓練BERT詞向量模型,每篇文檔得到由詞向量構成的矩陣,將匹配好的數據保存,以便后續話題建模的任務處理。
4.根據權利要求1所述的混合媒體環境下社會熱點事件的發現方法,其特征在于,所述步驟4)中在話題建模時,將步驟3)中向量化的文本數據作為上下文嵌入模型,發明中用到的神經話題模型是基于神經變分推理框架的生成模型,受到了變分自動編碼器的啟發,選用Gaussian分布生成參數,其中Gaussian參數可由線性計算獲得。
5.根據權利要求1所述的混合媒體環境下社會熱點事件的發現方法,其特征在于,所述步驟5)對話題建模后需要對話題進行合并工作,設定閾值ζ來衡量兩個話題間的距離,若兩個話題間的距離大于該閾值,則將兩話題判定為相同話題,需要對話題進行合并;否則兩者為不同話題,對兩者不需要進行合并操作。
6.根據權利要求1所述的混合媒體環境下社會熱點事件的發現方法,其特征在于,所述步驟6)和7)中,微博平臺提供了豐富的話題分類和內容標簽信息,綜合事件檢測過程中獲取的時間、命名實體和關鍵詞信息,從微博中搜索與事件關鍵信息相關的微博內容,然后計算事件關鍵信息與搜索結果的內容、分類和標簽之間的余弦距離檢測事件與微博的相似關系,建立事件-新聞-微博的關聯關系,對于熱點事件的判別,結合了事件的社交網絡屬性,利用公式(1)計算步驟5)得到話題的熱度值:
其中,Ne、Se和Ce分別表示事件e的新聞報道數、用戶轉發數和評論數,N、S和C分別表示對應的指標的總數;α,β,γ分別表示根據上述因素的重要程度而設定的比例系數(比如0.6,0.2,0.2),當綜合熱度值(范圍為[0,1])超過0.4時(即事件e的報道和討論占比超過40%時)則判定事件e為熱點事件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110444596.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一體化壓鑄機脫膜劑氣霧收集器
- 下一篇:一種折疊屏





