[發明專利]一種事件信息挖掘并預警的方法有效
| 申請號: | 201110430831.9 | 申請日: | 2011-12-20 |
| 公開(公告)號: | CN103176981A | 公開(公告)日: | 2013-06-26 |
| 發明(設計)人: | 楊風雷;崔建業;汪海燕;黎建輝 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q10/04;G06Q50/26 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 信息 挖掘 預警 方法 | ||
1.一種事件信息挖掘并預警的方法,其步驟為:
1)建立事件信息本體,并基于所述事件信息本體對爬取的互聯網信息進行過濾,得到與事件相關的信息;
2)基于所述事件信息本體中的實例名稱和屬性采用模式匹配方法對過濾后的信息進行分類;
3)對分類后的信息按照設定特征進行聚類,得到每一類信息中所包含的事件;
4)定期計算每一事件的各特征參數值;如果某事件的各特征參數值和其之前一定時期內的均值之間的差值超過事先設定的閾值,則對該事件進行預警。
2.如權利要求1所述的方法,其特征在于所述事件特征參數包括:信息頁面數、頁面瀏覽數、頁面轉發數、信息來源區域數、信息來源網站數以及綜合這些參數形成的綜合指數。
3.如權利要求2所述的方法,其特征在于從事件信息的對象、區域、結果、關聯者、時間五個緯度創建所述事件信息本體;對所述事件信息本體中的每一實例建立包括該實例名稱的同義詞、反義詞、別名詞的附加表。
4.如權利要求3所述的方法,其特征在于基于所述事件信息本體對爬取的互聯網信息進行過濾,得到與事件相關的信息的方法為:利用所述事件信息本體中對象和結果兩個緯度的本體實例名稱、屬性采取模式匹配的方法進行過濾;其中首先對爬取的互聯網信息的標題采用模式匹配方法進行過濾,如果當前信息屬于所需事件相關信息,則針對當前信息的過濾處理完畢;否則利用模式匹配的方法對該信息的內容進行過濾,判斷其是否屬于所需事件相關信息。
5.如權利要求4所述的方法,其特征在于對一網站爬取得到的與事件相關的信息進行非欺騙性垃圾意見的垃圾信息過濾,其方法為:
1)選取部分與事件相關的信息,并對其進行標注,得到垃圾信息集合和非垃圾信息集合;
2)從信息內容、信息內容分布、信息鏈接特征三個緯度對所述垃圾信息集合和非垃圾信息集合樣本進行特征提取,生成每一維度的特征向量;
3)采用機器學習方法基于所述垃圾信息集合和非垃圾信息集合建立基于每一維度特征的非欺騙性垃圾意見的垃圾信息檢測模型;
4)利用所述非欺騙性垃圾意見的垃圾信息檢測模型對所述與事件相關的信息進行非欺騙性垃圾意見的垃圾信息過濾。
6.如權利要求5所述的方法,其特征在于對一網站爬取得到的與事件相關的信息進行欺騙性垃圾意見過濾,其方法為:
1)選取部分與事件相關的信息并生成用戶生成內容網頁集合,對用戶生成內容網頁進行標注,得到候選欺騙性垃圾意見集合;
2)對候選欺騙性垃圾意見集合中的每一個樣本進行過濾,對確定的欺騙性垃圾意見進行標注,得到準確欺騙性垃圾意見集合;
3)從意見作者、意見內容、意見內容分布、鏈接特征四個緯度對所述準確欺騙性垃圾意見集合和無標注的用戶生成內容網頁集合進行特征提取,生成每一維度的特征向量;
4)采用機器學習方法基于所述準確欺騙性垃圾意見集合和無標注用戶生成內容網頁集合建立每一維度的欺騙性垃圾意見檢測模型;
5)利用所述欺騙性垃圾意見檢測模型對所述與事件相關的信息進行欺騙性垃圾意見過濾。
7.如權利要求6所述的方法,其特征在于所述步驟2)中還包括:a)基于建立的事件信息本體及標注過的樣本集合采用支持向量機機器學習方法,分別針對設定的每一信息類別建立一基于信息標題和內容的分類判斷模型,對信息進行分類處理;b)基于建立的事件信息本體及標注過的樣本集合采用KNN機器學習方法,分別針對設定的每一信息類別建立一基于信息標題和內容的分類判斷模型,對信息進行分類處理;最后根據步驟2)、a)、b)三種方法的分類結果中占多數者決定信息是否應該歸入某一個類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110430831.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種內容呈現設備和方法
- 下一篇:分流袋
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





