[發明專利]一種基于改進KL散度的話題跟蹤方法有效
| 申請號: | 202010123108.5 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111444337B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 謝武;孔麗娜;強保華;劉滿意;楊鮮 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/284;G06F40/289;G06K9/62 |
| 代理公司: | 廣州市一新專利商標事務所有限公司 44220 | 代理人: | 鐘忠 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 kl 話題 跟蹤 方法 | ||
本發明公開了一種基于改進KL散度的新聞話題跟蹤方法。所述方法利用KL散度衡量分布差異的思想,構造出一種可以區分普通特征與話題特征的權重計算方法,以此來提升特征的話題辨別能力,提高話題跟蹤的準確率;同時引入word2vec,將其與KL散度權重相結合,實現話題文本的向量化表示,降低數據維度,增強特征間的語義聯系;同時,采用增量學習模式,利用新檢測到的相關報道更新話題模型,解決話題漂移。
技術領域
本發明涉及計算機技術領域,具體涉及一種基于改進KL散度的話題跟蹤方法。
背景技術
話題跟蹤(Topic Tracking Task,TT)是話題檢測與跟蹤(Topic Detection andTracking,TDT)中的一項子研究任務,主要用于跟蹤已有話題的后續相關報道,即在給定待測話題的基礎上,逐一判斷新聞數據流中每篇報道與現有話題的相關度,并對其進行類別劃分,從而實現話題跟蹤功能。通過話題跟蹤技術,可以把與話題相關的報道有效的組織起來,幫助了解事件發展過程和相關細節。
話題和報道的特征模型構造是話題跟蹤任務的基礎問題,一般來說,話題模型是由其相關報道模型的質心或集合構成,報道的表示方法包括向量模型和概率模型等。傳統模型對話題特征的提取依賴于單一文檔特征,例如TF-IDF,該模型提取的特征反應的是文檔本身的特征,不能反映文檔所在話題的話題特征,忽略了話題特征與單一文檔特征的區別,使得提取出的特征話題辨識能力較低;同時,傳統話題特征提取模型認為文檔間相互獨立,忽略了話題中各文檔間的聯系。
發明內容
針對現有技術的不足,本發明提供一種基于改進KL散度的新聞話題跟蹤方法。所述方法利用KL散度衡量分布差異的思想,構造出一種可以區分普通特征與話題特征的權重計算方法,以此來提升特征的話題辨別能力,提高話題跟蹤的準確率;同時引入word2vec,將其與KL散度權重相結合,實現話題文本的向量化表示,降低數據維度,增強特征間的語義聯系;同時,采用增量學習模式,利用新檢測到的相關報道更新話題模型,解決話題漂移。
本發明技術方案主要包括如下步驟:
(1)給定已分類話題數據和待跟蹤新聞報道,對數據進行分詞、去停用詞等預處理。
(2)利用KL散度衡量分布差異的思想,構造出一種特征權重計算方法。由于KL散度本身衡量的是分布差異,對于那些分布差異大,但出現頻率較低的特征會被定義為具有話題辨識能力的特征,為避免這一問題,本發明統計特征詞在某一話題和全部話題中出現的頻率,以特征出現頻率分布來代替整體分布,為那些在某一個話題中出現占比較高而在其他話題中出現占比較低的特征賦予較大的權重,以此來提升特征的話題辨別能力。
(3)將word2vec與KL散度權重結合,實現已有話題中文本的向量化,構造各個話題對應的話題特征模型,降低數據維度,增強特征間的語義聯系,各話題中所有的文檔集共同構成該話題的話題模型。
(4)利用word2vec構造未檢測報道的特征模型。
(5)引入Rocchio算法,利用步驟(3)中構造的話題模型計算每個話題對應的標準向量,計算待檢測報道與各個話題標準向量的相似度,判斷該報道所屬話題類別,實現話題跟蹤。
(6)將新檢測到的相關報道放入其所在類別或獨立構成新話題,更新話題模型,繼續計算未測報道,若未測報道為空,則話題跟蹤任務結束,輸出話題跟蹤結果。
附圖說明
圖1為本發明的整體流程圖。
具體實施方式
參照圖1,本發明給出的實施例包括如下步驟:
(1)給定已分類話題數據和待跟蹤新聞報道,對數據進行分詞、去停用詞等預處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123108.5/2.html,轉載請聲明來源鉆瓜專利網。





