[發明專利]基于關鍵詞的事件演化過程的分析方法及系統有效
| 申請號: | 201510062379.3 | 申請日: | 2015-02-05 |
| 公開(公告)號: | CN104778202B | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 張日崇;盧忠宇;于偉仁;胡春明 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 馬爽;黃健 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵詞 事件 演化 過程 分析 方法 系統 | ||
1.一種基于關鍵詞的事件演化過程的分析方法,其特征在于,包括:
統計各時間段內的搜索結果數量,獲得所述搜索結果數量隨所述時間段變化的序列;
對所述序列進行尖峰檢測獲得至少一個尖峰窗口,每個所述尖峰窗口包括一個子序列,所述子序列包括一個尖峰,所述尖峰是所述搜索結果數量在所述序列中的局部最大值;
對所述尖峰窗口對應的搜索結果進行文本分析,獲得尖峰描述;
顯示所述搜索結果數量隨所述時間段變化的序列,并在所述尖峰的位置顯示所述尖峰描述。
2.根據權利要求1所述的方法,其特征在于,所述尖峰窗口包括窗口起始的時間段標識、尖峰的時間段標識和窗口結束的時間段標識;
依據所述各時間段以及所述各時間段內的搜索結果數量進行尖峰檢測獲得尖峰窗口包括:
初始化參數mean=C1,C1表示第1個時間段內的搜索結果數量;
若則更新所述初始化參數其中,Ci表示第i個時間段內的搜索結果數量,n表示所述時間段的總個數;
若則確定所述窗口起始的時間段標識為i,若則j=j+1,繼續判斷是否成立,直至時確定所述窗口結束的時間段標識為j,計算Ck,i≤k≤j,使得均成立,則k表示所述尖峰的時間段標識;
所述尖峰窗口為window(i,k,j);
更新所述初始化參數依據獲取window(i,k,j)的方法繼續獲取所述序列的所述尖峰窗口。
3.根據權利要求2所述的方法,其特征在于,還包括:
將所述搜索結果數量隨所述時間段變化的序列逆序排列獲得逆序序列;
依據獲取window(i,k,j)的方法獲取所述逆序序列的所述尖峰窗口;
將所述序列的所述尖峰窗口和所述逆序序列的所述尖峰窗口合并為尖峰窗口集合,重復的所述尖峰窗口記錄一次。
4.根據權利要求1所述的方法,其特征在于,所述統計各時間段內的搜索結果數量之前還包括:
依據關鍵詞搜索并獲得與所述關鍵詞相關的搜索結果,所述搜索結果包括時間信息;
所述統計各時間段內的搜索結果數量包括:
依據所述時間信息分別統計所述各時間段內的搜索結果數量。
5.根據權利要求4所述的方法,其特征在于,所述對所述尖峰窗口對應的搜索結果進行文本分析,獲得尖峰描述包括:
獲取所述尖峰窗口對應的搜索結果,利用分詞工具獲得所述搜索結果對應的分詞;
計算各分詞的詞頻逆向文件頻率TFIDF值;
若所述TFIDF值大于閾值,將所述TFIDF值對應的分詞作為所述尖峰描述。
6.根據權利要求1-5任一項所述的方法,其特征在于,所述顯示所述搜索結果數量隨所述時間段變化的序列包括:
將所述搜索結果數量隨所述時間段變化的序列連接成曲線,顯示所述曲線。
7.一種基于關鍵詞的事件演化過程的分析系統,其特征在于,包括:
統計模塊,用于統計各時間段內的搜索結果數量,獲得所述搜索結果數量隨所述時間段變化的序列;
檢測模塊,用于對所述序列進行尖峰檢測獲得至少一個尖峰窗口,每個所述尖峰窗口包括一個子序列,所述子序列包括一個尖峰,所述尖峰是所述搜索結果數量在所述序列中的局部最大值;
文本分析模塊,用于對所述尖峰窗口對應的搜索結果進行文本分析,獲得尖峰描述;
顯示模塊,用于顯示所述搜索結果數量隨所述時間段變化的序列,并在所述尖峰的位置顯示所述尖峰描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510062379.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于兩層聚類的多文檔主題發現方法
- 下一篇:一種數據查找方法及裝置





