[發明專利]面向短文本的群體性事件預警方法和系統有效

申請號：	201410299114.0	申請日：	2014-06-26
公開（公告）號：	CN104091054B	公開（公告）日：	2017-12-05
發明（設計）人：	孫正雅;王桂香;梁倩;郝紅衛	申請（專利權）人：	中國科學院自動化研究所
主分類號：	G06F19/00	分類號：	G06F19/00;G06F17/27
代理公司：	中科專利商標代理有限責任公司11021	代理人：	宋焰琴
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	面向文本群體性事件預警方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及信息安全領域，更具體而言，涉及一種面向短文本的群體性事件的預警方法和系統。

背景技術

我國社會正走向群體性事件多發階段，如相繼發生在西藏拉薩、新疆烏魯木齊、新疆巴楚、云南昆明等地的群體性事件，不僅造成慘痛的人員傷亡，而且帶來巨大的經濟損失和惡劣的社會影響。為了避免或最大限度地化解群體性事件的發生，建立合理有效的預警監測機制開始受到關注和重視，這就需要收集反映輿情動向的相關信息和數據，及時識別出潛在的群體性矛盾并排除警情，而獲取信息是危機預警的前提和源頭。

伴隨互聯網和通信網的日益普及，網絡通信和短消息已經成為人們進行信息發布和交流的重要工具，也成為了解輿情的直接渠道。此狀況下，利用網絡交流平臺自身的特點(即信息長度短、結構復雜以及變形詞多等特點)，建立起完善的短文本信息反饋網絡，提前發現潛在的危險因素，為群體性安全事件的應急管理提供及時、準確、全面的信息就顯得迫在眉睫，有著非常重要的現實意義。這其中的關鍵技術就是如何從海量數據中自動甄別有用信息并進行實時跟蹤和預警。

目前有些研究工作根據數據是否包含所關心的敏感詞進行預警，敏感詞庫的制備往往需要人工參與和定時更新，而且這種方法忽視了上下文語境的影響，事實上特定詞匯在不同語境下的語義不盡相同，例如“散步”可以是召集群體性事件的敏感詞，但是在很多語境下，“散步”僅代表人們休閑或鍛煉的一種形式而已。也有研究工作提出自動從數據中提取上下文特征并訓練“詞袋模型”進行描述和預測，該模型假設特征詞之間相互獨立，并不考慮詞序和句法特征，于是嚴重影響預警結果的準確性，例如“民眾鬧事影響社會穩定”，盡管該句中包含敏感詞“民眾”和“鬧事”，但并非蓄意召集非法集會；而且由于一詞多義和多詞一義現象的存在，使得單純將詞匹配得到的類別信息作為判定敏感事件或者同一事件的做法可能導致信息不一致、冗余等問題。從實際的測試效果也容易看出，其信息甄別、跟蹤和預警的準確性、全面性等方面尚存在進一步提升的空間。

發明內容

鑒于以上提出的問題，本發明提出一種面向短文本的結合知識庫的群體性事件預警方法和系統，旨在克服現有技術中存在的上述問題。

具體地，根據本發明的一個方面，提供一種面向短文本的群體性事件預警方法，包括以下步驟：

步驟S3：對短文本進行全局結構化處理和在線聚類，并根據每個“聚類簇”內所包含的短文本數目是否超過給定閾值來決定是否進行及時預警。

優選地，在所述步驟S3之前還包括以下步驟：

步驟S1：基于互聯網和通信網獲取的領域相關語料資源，自動構建面向群體性安全事件的領域知識庫，包括領域本體庫、事實庫、事件庫和規則庫，并實現其半自動化的知識維護和更新；以及

基于步驟S1構建的領域知識庫執行步驟S3。

優選地，所述步驟S1包括以下步驟：

步驟S11：構建領域本體庫，庫中存放了領域概念的層次化組織形式，而且概念之間具有等價關系以及可能的領域關系約束；

步驟S12：構建領域事實庫，庫中存放了經過語義消歧以及實體唯一性標識而得到的結構化元組集合；

步驟S13：構建領域事件庫，包括領域相關詞匯，這些詞匯由行為、施事、受事、修飾、結果、時間和地點等類型組成；

步驟S14：構建領域規則庫，存放了概念元組之間的等價關系及其成立的概率。