[發(fā)明專利]一種基于主題模型的輿情新聞事件跟蹤方法有效
| 申請?zhí)枺?/td> | 202010141439.1 | 申請日: | 2020-03-04 |
| 公開(公告)號: | CN112115327B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設計)人: | 馬子娟;岳昆;段亮;吳鑫然;李維華;趙天資 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F40/289;G06F40/242;G06F40/216;G06Q50/00 |
| 代理公司: | 云南凌云律師事務所 53207 | 代理人: | 董建國 |
| 地址: | 650500 云南省昆明市*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 輿情 新聞 事件 跟蹤 方法 | ||
1.一種輿情新聞事件跟蹤方法,其特征在于執(zhí)行過程分為以下4個步驟:
(1)輿情新聞數(shù)據(jù)在線獲取與預處理:首先選取需要進行跟蹤的輿情新聞事件,然后持續(xù)地從社交網(wǎng)絡和新聞網(wǎng)頁上爬取該事件的新聞數(shù)據(jù),將在線獲取的數(shù)據(jù)進行預處理,去除停用詞并進行分詞;
(2)構建MBTM(Minority Biterm Topic Model)并推斷輿情新聞事件隱含主題:定義輿情新聞數(shù)據(jù)詞典,提取二元組,給定參數(shù)構建MBTM,利用該模型對預處理后的輿情新聞數(shù)據(jù)進行建模,并推斷輿情新聞事件的隱含主題;
(3)輿情新聞事件主題演化軌跡跟蹤:設置時間節(jié)點,在每個時間節(jié)點處對模型當前的主題-詞分布進行采樣,獲取對應主題中的詞項,通過觀察不同時間節(jié)點對應詞項的演變,得到特定輿情新聞事件主題的演化軌跡;
(4)基于JS散度和主題強度的輿情新聞事件主題的演化軌跡分析:計算相鄰時間節(jié)點主題-詞分布間的JS散度,衡量特定輿情新聞事件主題在特定時間段內(nèi)是否發(fā)生演化;將輿情新聞事件的主題強度看作該事件主題在上一個時間節(jié)點到當前時間節(jié)點內(nèi)被討論的次數(shù),計算主題在每個時間節(jié)點的強度,從而監(jiān)控輿情新聞事件的發(fā)展情況。
2.根據(jù)權利要求1所述的方法,特征在于,所述步驟(2)進一步包括以下具體步驟:
2.1:定義輿情新聞數(shù)據(jù)詞典
獲取步驟1.2.2預處理后得到的文字內(nèi)容,將其中包含的全部詞項存儲在輿情新聞數(shù)據(jù)詞典中,記為中,詞典即為新聞數(shù)據(jù)中出現(xiàn)的所有詞項的集合,其中,
2.2:提取輿情新聞數(shù)據(jù)中的二元組
將每條輿情新聞數(shù)據(jù)作為一個單獨的上下文單元,其中任何兩個不同的詞項構成一個二元組,一個包含3個不同詞項的上下文單元將生成3個二元組表示為
(2-1)
按照式2-1的規(guī)則提取每條輿情新聞數(shù)據(jù)文字內(nèi)容中的二元組,得到二元組集合,其中,|
2.3:構建MTBM
用輿情新聞數(shù)據(jù)詞典
2.3.1:從參數(shù)為
(2-2)
其中,
2.3.2:對每個主題
2.3.3:對二元組集合中的每個二元組
2.4:通過MBTM推斷輿情新聞事件的隱含主題
MBTM模型在步驟2.3模型生成過程的基礎上,將主題分布
2.4.1:隨機初始化
(2-3)
其中,
2.4.2:基于得到的變分參數(shù),按照公式2-4和2-5估計
(2-4)
(2-5)
2.4.3:按照公式2-6定義Robbins-Monro序列,用來描述當時間步長
(2-6)
2.4.4:和分別是
(2-7)
(2-8)
2.4.5:更新時間步長
2.4.6:在對所有的二元組進行了更新操作后,由于全局參數(shù)
(2-9)
(2-10)
其中,符號“”表示成正比例,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經(jīng)云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010141439.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





