[發明專利]識別事件關鍵進展的方法和設備有效
| 申請號: | 201310314465.X | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN103500163A | 公開(公告)日: | 2014-01-08 |
| 發明(設計)人: | 沈劍平;彭學政;李凱;羅嶸 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 羅延紅;魯恭誠 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 事件 關鍵 進展 方法 設備 | ||
1.一種識別事件關鍵進展的方法,所述方法包括:
基于事件核心詞獲得事件搜索詞簇;
通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;
通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合;
通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合;
對第三事件關鍵進展點集合進行優化,獲得最終事件關鍵進展脈絡。
2.如權利要求1所述的方法,其中,基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟包括:
(1)通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇在時間軸上每天命中的新聞數量,獲得事件搜索詞簇的新聞報道趨勢圖;
(2)通過基于假期效應對新聞報道趨勢圖進行假期新聞數量調整,獲得媒體關注度趨勢圖;
(3)通過對媒體關注度趨勢圖進行時序分析以識別新聞突發點,來獲得以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定天數的連續新聞突發點的集合;
(4)對候選事件關鍵進展點集合中的持續時間大于或等于第二預定天數且具有明顯發展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發展脈絡的大事件是指在所述持續時間內單獨進行時序分析也能夠識別到新聞突發點的大事件。
3.如權利要求1所述的方法,其中,基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟包括:
(1)通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇中的每個搜索詞在時間軸上每天命中的新聞數量,獲得每個搜索詞的新聞報道趨勢圖;
(2)通過基于假期效應對每個搜索詞的新聞報道趨勢圖進行假期新聞數量調整,獲得每個搜索詞的媒體關注度趨勢圖;
(3)對每個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發點,獲得每個搜索詞的以大事件為粒度的候選事件關鍵進展點,其中,大事件是指大于或等于第一預定天數的連續新聞突發點的集合;
(4)將事件搜索詞簇中的所有搜索詞的候選事件關鍵進展點進行融合,獲得候選事件關鍵進展點集合;
(5)對候選事件關鍵進展點集合中的持續時間大于或等于第二預定天數且具有明顯發展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發展脈絡的大事件是指在所述持續時間內單獨進行時序分析也能夠識別到新聞突發點的大事件。
4.如權利要求1所述的方法,其中,獲得事件搜索詞簇的步驟包括:
通過在用戶搜索日志中搜索與事件核心詞對應的事件搜索詞,獲得事件搜索詞簇。
5.如權利要求2或3所述的方法,其中,假期新聞數量調整的步驟包括:
通過統計假期前一日、假期當日、假期后一日的全網新聞索引來分別獲得假期前一日、假期當日、假期后一日的全網新聞總量;
計算假期當日的全網新聞總量和假期前一日的全網新聞總量之間的差值與假期當日的全網新聞總量和假期前一日的全網新聞總量之間的差值的比例;
根據計算的比例調整假期當日事件搜索詞簇的新聞數量。
6.如權利要求2或3所述的方法,其中,第一預定天數為3天,第二預定天數為5天。
7.如權利要求2或3所述的方法,其中,時序分析的步驟包括:
采用滑動時間窗口的方式,以第一預定時間段為一個計算時間窗口,以第二預定時間段為滑動時間窗口向前滑動,分別識別每個計算時間窗口內的新聞突發點;
只要在一個計算時間窗口中將某一個時間點識別為新聞突發點,則將該時間點設置為候選關鍵進展時間點;
將所有候選關鍵進展時間點進行融合,得到以大事件為粒度的候選事件關鍵進展點集合。
8.如權利要求7所述的方法,其中,第一預定時間段為30天,第二預定時間段為2天。
9.如權利要求7所述的方法,其中,識別新聞突發點的步驟包括:
計算該計算時間窗口內的所有天的事件搜索詞簇的新聞數量的均值以及方差;
通過以下的公開來計算門限值:門限值=均值+0.8×方差;
如果該計算時間窗口內的某一個時間點大于計算的門限值,則將該時間點識別為新聞突發點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310314465.X/1.html,轉載請聲明來源鉆瓜專利網。





