[發明專利]突發事件話題狀態的預測裝置及預測方法有效
| 申請號: | 201410412196.5 | 申請日: | 2014-08-20 |
| 公開(公告)號: | CN104216954B | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 陳莉萍;王酌;楊談;崔毅東;金躍輝 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司11018 | 代理人: | 夏憲富 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 突發事件 話題 狀態 預測 裝置 方法 | ||
技術領域
本發明涉及一種互聯網的話題檢測與跟蹤TDT(Topic Detection and Tracking)技術,確切地說,涉及一種突發事件話題狀態的預測裝置及預測方法,用于在解決突發事件發生后,微博網絡中話題狀態的識別與跟蹤,并通過意見領袖參與率的狀態來預測突發事件話題狀態,建立預測模型,為監測突發事件話題趨勢走向提供依據。屬于互聯網信息應用的技術領域。
背景技術
互聯網的話題檢測與跟蹤TDT技術起源于早期面向事件的檢測與跟蹤EDT(Event Detection and Tracking)。TDT面向多語言文本和語言形式的新聞報道,主要從事報道邊界自動識別、鎖定和收集突發性新聞話題、跟蹤話題發展、以及跨語言檢測與跟蹤等相關任務。不同于EDT,TDT檢測與跟蹤的對象從特定時間和地點發生的事件擴展為具備更多相關性外延的話題,相應的理論與應用研究也同時從傳統對于單事件的識別,跨越到包含突發事件及其后續相關報道的話題檢測與跟蹤。
TDT涉及兩類最主要的信息獲取問題:信息的檢測與集成,以及信息的采集與跟蹤。這兩方面研究課題分別與目前的信息檢索IR(Information Retrieval)和信息過濾IF(Information Filtering)對應的問題非常相似。在IF系統中,用戶通過定義靜態的用戶需求(Profile),從動態變化的信息流中實時地獲取相關知識,這種知識的獲取方法側重于跟蹤信息的時空進程,并將最新的相關信息反饋給用戶。
美國國家標準技術研究院NIST(National Institute of Standards and Technology)為TDT研究設立了五項基礎性的研究任務,包括:面向新聞廣播類報道的切分,面向已知話題的跟蹤,面向未知話題的檢測,對未知話題首次相關報道的檢測和報道間相關性的檢測共五項任務。其中,面向已知話題的跟蹤任務主要是跟蹤話題的后續報道。隨著TDT研究的深入,面向已知話題的跟蹤任務已經不再滿足于收集語料、進行分析,然后進行跟蹤。話題追蹤(又稱為話題演化),不僅包含對話題本身內容的演化與子話題的衍生等,還包括了話題強度的演化。話題內容的演化,既包含傳統話題跟蹤TTT(Traditional Topic Tracking),也包括自適應話題跟蹤ATT(Adaptive Topic Tracking)。話題強度演化主要是發現隨著時間的推移,話題強度增大、減小等強度變化規律。這就演化出了一個新的任務——話題預測,其目的是提前預知話題在下一個時刻,話題自身的變化情況,即話題熱度等;話題在空間上的變化情況,即影響范圍大小,影響人數的多少。
這幾年來,突發事件話題預測技術已經從最初的網頁內容話題預測,逐漸發展為論壇和博客話題預測,近幾年又有微博話題預測。這些話題預測主要圍繞在話題屬性方面,如話題流行度、關注度或者話題熱度的變化趨勢等。預測方法主要是回歸模型、時間序列模型和馬爾科夫模型。
回歸模型是借用回歸公式,發現話題流行度等屬性與話題轉發、評論、引用等信息的關系。通過具體數據,構造一個多元非線性回歸模型。模型建立后,可用于對下一時刻的話題流行度等屬性進行預測。
時間序列是在連續時間下,發現話題轉發、評論、引用等信息的變化量,通過計算前一段時間的變化速度和加速度,對話題下一時刻的話題流行度屬性進行預測。
馬爾科夫模型是通過大量數據得到話題的狀態值,以及話題中的一個狀態到下一個狀態的遷移概率矩陣。當有當前狀態時,就可以通過這個狀態遷移矩陣找到下一個時刻的話題狀態。
《基于意見領袖參與行為的微博話題熱度預測研究》(刊于《情報雜志》2013年12期)定義了三個概念:話題意見領袖參與率、話題意見領袖微博轉發率、話題意見領袖微博評論率。然后,采用回歸模型方法,利用這三個指標構造高階多元回歸公式,得到話題熱度公式,從而預測話題熱度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410412196.5/2.html,轉載請聲明來源鉆瓜專利網。





