[發明專利]識別事件關鍵進展的方法和設備有效
| 申請號: | 201310314465.X | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN103500163A | 公開(公告)日: | 2014-01-08 |
| 發明(設計)人: | 沈劍平;彭學政;李凱;羅嶸 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 羅延紅;魯恭誠 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 事件 關鍵 進展 方法 設備 | ||
技術領域
本發明涉及一種新聞話題跟蹤技術,更具體地說,涉及一種通過在不需要人工標注的情況下確定重要子事件的發生時間點來識別事件關鍵進展的方法和設備。?
背景技術
隨著網絡科技的高速發展,無論是使用移動終端(例如,手機等)還是非移動終端(例如,臺式計算機等)來上網瀏覽新聞,都已經成為人們最為常見的一種休閑方式。據騰訊科技調查,61.67%的調查用戶使用手機上網以瀏覽新聞為主。在新聞門戶網站中,一般將事件稱為專題,一個熱門事件(或者話題)通常由若干子事件組成。每個事件都有一個產生、發展、高潮、結束的過程,整個過程中重要的子事件串聯起來便形成表示事件進展的事件脈絡,因此事件脈絡是全面了解一個新聞事件發展的重要需求。?
現有技術主要是基于編輯標注,人工實現對事件最新進展識別。例如,各種門戶網站都是采用編輯人工標注,Google實驗項目living?storis也是采用編輯人工標注,即,對每篇新聞文檔進行標注(如背景文檔,進展文檔等),然后機器再從編輯標注好的文檔中把文檔匯總展示。?
此外,騰訊搜搜新聞跟蹤系統是一套用戶跟蹤和發現話題最新進展的系統,但其主要采用的是跟蹤事件的最新進展而不是關注事件(包括事件的歷史)的關鍵進展,生成的事件進展圖并不是清晰事件脈絡。?
現有技術的編輯人工標注的方法,事件(話題)覆蓋面窄,人力成本高,不適應海量新聞事件脈絡挖掘的需求。?
在目前利用機器自動進行事件脈絡的挖掘方面,一種方式是采用事件跟蹤的方式,通過把本階段發生的熱門事件與前一階段發生的熱門事件進行事件關聯,如果有歷史事件可以關聯到當前事件,則當前事件為歷史事件的一個進展。但事件關聯往往會因為事件花邊新聞的影響而出現話題漂移。另一?種方式是采用文檔聚類的方式,將前一階段聚類得到的所有簇與當前階段聚類的話題簇進行話題簇關聯,由于文檔聚類屬于無監督學習,聚類成本高。同時事件跟蹤的方式很難以處理冷啟動問題,并且需要把當前的所有話題與歷史所有話題進行關聯匹配,后期開發成本較大,開發周期較長。?
因此,需要一種在無需人工標注的情況下無需通過關聯、聚類的方法而有效地識別事件關鍵進展的方法和設備。?
發明內容
本發明的目的在于至少解決上述問題,并至少提供下述優點。根據本發明的一方面,提供了一種識別事件關鍵進展的方法和設備,所述方法和設備通過基于媒體關注度和新聞熱搜詞進行事件關鍵進展識別,來獲得最終事件關鍵進展脈絡。?
根據本發明的一方面,提供了一種識別事件關鍵進展的方法,所述方法包括:基于事件核心詞獲得事件搜索詞簇;通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合;通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合;對第三事件關鍵進展點集合進行優化,獲得最終事件關鍵進展脈絡。?
基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟可包括:(1)通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇在時間軸上每天命中的新聞數量,獲得事件搜索詞簇的新聞報道趨勢圖;(2)通過基于假期效應對新聞報道趨勢圖進行假期新聞數量調整,獲得媒體關注度趨勢圖;(3)通過對媒體關注度趨勢圖進行時序分析以識別新聞突發點,來獲得以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定天數的連續新聞突發點的集合;(4)對候選事件關鍵進展點集合中的持續時間大于或等于第二預定天數且具有明顯發展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發展脈絡的大事件是指在所述持續時間內單獨進行時序分析也能夠識別到新聞突發點的大事件。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310314465.X/2.html,轉載請聲明來源鉆瓜專利網。





