[發明專利]一種事件信息挖掘并預警的方法有效
| 申請號: | 201110430831.9 | 申請日: | 2011-12-20 |
| 公開(公告)號: | CN103176981A | 公開(公告)日: | 2013-06-26 |
| 發明(設計)人: | 楊風雷;崔建業;汪海燕;黎建輝 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q10/04;G06Q50/26 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 信息 挖掘 預警 方法 | ||
技術領域
本發明屬于信息技術領域,尤其涉及一種采用特定策略、步驟對爬取得到的互聯網信息進行處理從而進行食品安全事件信息發現、預警的方法,主要應用于食品安全事件信息監控、風險預警等非常規突發事件的應急處理工作中。
背景技術
近年來,食品安全事件諸如瘦肉精、染色饅頭、塑化劑、毒黃瓜等頻頻發生,這既造成了極壞的社會影響,也帶來了大量的經濟損失。為了避免或最大限度的降低這些食品安全事件所帶來的危害,基于事件的風險預警技術開始得到了極大關注。為進行基于事件的風險預警,這就需要提前發現這些事件的信息。
隨著Internet的迅猛發展,互聯網網民數量越來越龐大,互聯網逐漸成為網民發布信息、獲取信息和傳遞信息的主要載體,而且通過人、組織等之間的交互形成了一個和現實社會有一定的對應、關聯關系的虛擬社會。它已經變成了世界上規模最大的公共數據源,而且其規模還正在不停的增長著。此狀況下,利用互聯網自身的特點,建立起完善的社會信息反饋網絡,提前發現各種可能帶來危機的“未然”因素,為食品安全事件的應急管理提供及時、準確、全面的信息就顯得勢在必行和有著非常重要的意義。
為利用互聯網上的信息進行食品安全事件的風險預警,需要經過一定的過程得到事件相關的信息。這首先需要進行互聯網信息爬取,之后即可進行食品安全事件相關的信息提取、發現工作。為此,有必要從食品安全事件應急管理的角度考察食品安全事件信息提取、發現的目的和關鍵點:在基于事件的食品安全風險預警工作中,需要識別可能演變成事件的蛛絲馬跡信息;對信息的性質進行判斷,確定是否是一個事件,基于此識別已經正在形成的事件信息;對已經發現、識別的事件信息,對其發展趨勢進行追蹤和監控,以監控事件的發展趨勢,待其發展到一定程度需要進行及時的預警,以此為采取特定措施提供基礎。
在這樣一個過程里面,其中的關鍵步驟是進行事件信息的識別,理論上這可以通過各種有監督的機器學習或者無監督的機器學習方法實現,但結合實際的信息需求和準確度、可操作性等的考慮,往往采取一些變通的措施。比如有研究工作采取的方式是:事先建立一些信息分類(比如疾病),針對每個分類收集一些關鍵詞,之后對收集到的網頁信息以這些分類和關鍵詞為基礎,采取關鍵詞匹配的方式進行信息分類,并在此基礎上監控類別信息即事件的發展。也有研究工作采用了信息的相關性檢測、命名實體識別、利用疾病和地址的信息提取、可視化的展示結果等步驟進行事件信息的識別和判斷的做法。
從評估試驗的結果看,上述做法中事件信息的判斷、識別、預警等還存在性能上的不足(準確率、召回率等參數有待進一步提高)。對此,如果考慮到上述方法中僅考慮了新聞信息而未考慮目前的Web2.0應用比如博客信息、未考慮信息中存在的各種垃圾信息的影響、截止目前信息提取技術的準確度尚未足夠高,及直接將經過關鍵詞匹配后得到的類別信息作為同一種事件信息的做法中可能存在信息對應的主體不一致等問題,上述方法存在性能上的不足也就不足為奇了。
發明內容
為解決上述問題,本發明的目的在于提供一種采取特定措施和策略對爬取的網頁信息進行特定處理從而有效的進行食品安全事件信息發現、事件預警的方法。
方法中形成的步驟如下所述。
一、建立本體
依據食品安全事件的特點和后期信息分析的需要,從對象、區域、結果、關聯者、時間等緯度建立食品安全事件信息本體。從而為食品安全事件的信息過濾、信息分類、信息發現等提供了基礎。
二、信息過濾
在上述建立的本體基礎上,對爬取得到的網頁信息進行過濾。過濾過程主要分為兩個部分:食品安全信息過濾、垃圾信息過濾。其中前者主要是通過對信息的標題、內容等采取模式匹配的方法確定其是否屬于食品安全信息;后者主要是對通過內容、鏈接作弊的垃圾信息、以及用戶生成內容中的無關意見、低質量意見和欺騙性垃圾意見通過建立檢測模型進行過濾。從而保證進入后續過程的信息的質量。
三、信息分類
在上述建立的本體基礎上,對爬取、過濾后的信息,通過對信息的標題、內容等采取模式匹配、基于機器學習分類模型的判斷識別方法進行信息的分類處理,從而將信息歸入到不同的類別中。
四、事件區分
對歸入到不同類別的信息,通過基于本體的聚類方法,對類別中的信息進一步按照事件的不同進行區分,從而區分出不同的事件。過程中對信息的時間范圍進行限制也是一個需要考慮的問題。
五、趨勢追蹤
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110430831.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種內容呈現設備和方法
- 下一篇:分流袋
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





