[發明專利]一種面向特定區域的事件發生風險預測并預警方法有效
| 申請號: | 201210501874.6 | 申請日: | 2012-11-29 |
| 公開(公告)號: | CN103854064B | 公開(公告)日: | 2017-01-25 |
| 發明(設計)人: | 楊風雷;黎建輝 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 特定 區域 事件 發生 風險 預測 預警 方法 | ||
1.一種面向特定區域的事件發生風險預測并預警方法,其步驟為:
1)建立一食品安全事件信息本體,并對本體中的每個實例分別建立一附加表;
2)對爬取的網頁信息進行過濾,得到與食品安全事件相關的非垃圾網頁信息;
3)對過濾后的網頁信息中表示處所的詞語進行解析,得到準確的地名詞語;基于所述食品安全事件信息本體中區域維度的本體實例名稱、屬性采用模式匹配方法對解析后的網頁信息進行處理,將網頁信息歸入匹配成功的區域;
4)針對每一設定的對象類別,利用回歸分析模型對網頁信息進行處理,判斷每一網頁相關的對象類別;
5)根據步驟3)、4)確定出的網頁所屬區域及其相關的對象類別,得到設定區域、對象的事件的網頁信息集合,建立事件的特征參數并定期計算特征參數值,如果某事件的特征參數值持續設定時間超過設定閾值則對該事件進行預警;
6)如果某區域出現一設定對象事件預警,基于矩陣分析和回歸預測模型定期計算目標區域發生該設定事件的可能性以及可能的發生時間,并進行不同級別的風險預警。
2.如權利要求1所述的方法,其特征在于對網頁信息中表示處所的詞語進行解析的方法為:
1)對于地名代詞,用一判斷模型判斷地名代詞與其前面出現的地理名詞之間是否存在指代關系,如果存在,則將地名代詞替換為相應的地理名詞;
2)基于標準詞語和非標準詞語對照表對詞語中非標準地名詞語進行解析,將非標準詞語替換為標準詞語;
3)基于所述食品安全事件信息本體中的區域維度,對詞語中的相對位置區域信息進行解析,得到準確的地名詞語;
其中,所述判斷模型的建立方法為:將包含地名代詞的網頁信息形成一樣本集合,并對樣本集合中地名代詞和其之前的地理名詞之間的指代關系進行標注,作為類別變量;建立地名代詞和其之前的地理名詞之間關系的特征向量:然后選擇機器學習方法基于所述樣本集合、類別變量和特征向量建立地理名詞和地名代詞之間是否存在指代關系的判斷模型;
其中,判斷地名代詞與其前面出現的地理名詞之間是否存在指代關系的方法為:計算地名代詞和地理名詞之間關系的特征向量值,利用所述判斷模型對所述特征向量值進行判斷,確定地名代詞和地理名詞之間的指代關系是否存在。
3.如權利要求1或2所述的方法,其特征在于所述食品安全事件信息本體包括對象、區域、時間、結果、關聯者五個緯度;所述附加表的內容包括同義詞、反義詞、別名詞三個緯度;其中,針對區域維度,附件表的內容還包括電話區號、郵政編碼、簡稱、名勝、鄰近域、所在方位六個緯度。
4.如權利要求3所述的方法,其特征在于步驟3)對過濾后的網頁信息中表示處所的詞語進行解析之前采用分詞器對信息標題和正文內容進行分詞,并記錄分詞所得詞語相對信息標題和正文內容構成的文本開始、結束的相對位置、所屬句子、相對句子開始和結束的相對位置。
5.如權利要求4所述的方法,其特征在于首先建立一可疑地名詞表,記錄可用作其他名稱的地名,然后用所述可疑地名詞表對步驟3)分詞所得詞語進行匹配,濾除匹配的詞語;其中,如果匹配的詞語具有代表地名的后綴,則保留該詞語。
6.如權利要求2所述的方法,其特征在于對網頁信息中表示處所的地名代詞進行解析的方法為:
61)建立一代詞解析的長度為L的滑動窗口;
62)選擇地名代詞前L個詞語內是否存在地理名詞,如果存在,則采用判斷模型進行判斷,如果存在指代關系,則根據指代關系確定代詞對應的地理名詞,解析結束,否則進行步驟63);
63)選擇地名代詞前2L個詞語內是否存在地理名詞,如果存在,則采用判斷模型進行判斷,如果存在指代關系,則根據指代關系確定代詞對應的地理名詞,解析結束,否則進行步驟64);
64)根據元數據提取過程中得到的信息來源或網站所在地采用抽取或者替換的方法確定地名代詞的指代地名。
7.如權利要求2或6所述的方法,其特征在于所述判斷模型中的樣本特征向量的分量包括:地理名詞后綴長度、地理名詞和地名代詞之間的距離、地理名詞距離文本開始的相對距離、地名代詞距離文本開始的相對距離、地理名詞距離句子開始的相對距離、地名代詞距離句子開始的相對距離、地理名詞距離句子結束的相對距離、地名代詞距離句子結束的相對距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210501874.6/1.html,轉載請聲明來源鉆瓜專利網。





