[發明專利]面向短文本的群體性事件預警方法和系統有效
| 申請號: | 201410299114.0 | 申請日: | 2014-06-26 |
| 公開(公告)號: | CN104091054B | 公開(公告)日: | 2017-12-05 |
| 發明(設計)人: | 孫正雅;王桂香;梁倩;郝紅衛 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00;G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 文本 群體性 事件 預警 方法 系統 | ||
技術領域
本發明涉及信息安全領域,更具體而言,涉及一種面向短文本的群體性事件的預警方法和系統。
背景技術
我國社會正走向群體性事件多發階段,如相繼發生在西藏拉薩、新疆烏魯木齊、新疆巴楚、云南昆明等地的群體性事件,不僅造成慘痛的人員傷亡,而且帶來巨大的經濟損失和惡劣的社會影響。為了避免或最大限度地化解群體性事件的發生,建立合理有效的預警監測機制開始受到關注和重視,這就需要收集反映輿情動向的相關信息和數據,及時識別出潛在的群體性矛盾并排除警情,而獲取信息是危機預警的前提和源頭。
伴隨互聯網和通信網的日益普及,網絡通信和短消息已經成為人們進行信息發布和交流的重要工具,也成為了解輿情的直接渠道。此狀況下,利用網絡交流平臺自身的特點(即信息長度短、結構復雜以及變形詞多等特點),建立起完善的短文本信息反饋網絡,提前發現潛在的危險因素,為群體性安全事件的應急管理提供及時、準確、全面的信息就顯得迫在眉睫,有著非常重要的現實意義。這其中的關鍵技術就是如何從海量數據中自動甄別有用信息并進行實時跟蹤和預警。
目前有些研究工作根據數據是否包含所關心的敏感詞進行預警,敏感詞庫的制備往往需要人工參與和定時更新,而且這種方法忽視了上下文語境的影響,事實上特定詞匯在不同語境下的語義不盡相同,例如“散步”可以是召集群體性事件的敏感詞,但是在很多語境下,“散步”僅代表人們休閑或鍛煉的一種形式而已。也有研究工作提出自動從數據中提取上下文特征并訓練“詞袋模型”進行描述和預測,該模型假設特征詞之間相互獨立,并不考慮詞序和句法特征,于是嚴重影響預警結果的準確性,例如“民眾鬧事影響社會穩定”,盡管該句中包含敏感詞“民眾”和“鬧事”,但并非蓄意召集非法集會;而且由于一詞多義和多詞一義現象的存在,使得單純將詞匹配得到的類別信息作為判定敏感事件或者同一事件的做法可能導致信息不一致、冗余等問題。從實際的測試效果也容易看出,其信息甄別、跟蹤和預警的準確性、全面性等方面尚存在進一步提升的空間。
發明內容
鑒于以上提出的問題,本發明提出一種面向短文本的結合知識庫的群體性事件預警方法和系統,旨在克服現有技術中存在的上述問題。
具體地,根據本發明的一個方面,提供一種面向短文本的群體性事件預警方法,包括以下步驟:
步驟S3:對短文本進行全局結構化處理和在線聚類,并根據每個“聚類簇”內所包含的短文本數目是否超過給定閾值來決定是否進行及時預警。
優選地,在所述步驟S3之前還包括以下步驟:
步驟S1:基于互聯網和通信網獲取的領域相關語料資源,自動構建面向群體性安全事件的領域知識庫,包括領域本體庫、事實庫、事件庫和規則庫,并實現其半自動化的知識維護和更新;以及
基于步驟S1構建的領域知識庫執行步驟S3。
優選地,所述步驟S1包括以下步驟:
步驟S11:構建領域本體庫,庫中存放了領域概念的層次化組織形式,而且概念之間具有等價關系以及可能的領域關系約束;
步驟S12:構建領域事實庫,庫中存放了經過語義消歧以及實體唯一性標識而得到的結構化元組集合;
步驟S13:構建領域事件庫,包括領域相關詞匯,這些詞匯由行為、施事、受事、修飾、結果、時間和地點等類型組成;
步驟S14:構建領域規則庫,存放了概念元組之間的等價關系及其成立的概率。
進一步優選地,所述步驟S13包括以下步驟:
步驟S131:根據領域特定關鍵詞,依據“共現關系”自動收集領域相關詞匯,并進行手工歸類;
步驟S132:構建時間庫,庫中存放了各類時間詞及其數值編碼,通過識別時間詞并在短文本的發布時間基礎上識別出確切的時間;另外,該庫還包括時區表,表中存放了世界上各個國家的時區;
步驟S133:構建地點庫,庫中按照洲、國家、省、市、縣的上下位層次關系存放了世界各國的著名地區名稱,另外庫中還包括地點結尾詞表,表中存放了常用的地點結尾詞及它們的上下位關系。
優選地,在所述步驟S1和S3之間還包括以下步驟:
步驟S2:結合領域知識庫,對短文本進行局部結構化抽取和在線分類,實現從海量短文本中識別出具有潛在安全隱患的群體性事件相關文本;以及
在步驟S2識別出來的短文本的范圍內執行步驟S3。
優選地,所述步驟S2進一步包括以下步驟:
步驟S21:對待分析的短文本逐句進行預處理,即將漢語進行分詞和詞性標注,并對特殊的詞語序列進行合并與修正;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410299114.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





