[發明專利]基于并行化CEP處理的語義驅動犯罪線索實時推薦方法有效
| 申請號: | 201710135699.6 | 申請日: | 2017-03-09 |
| 公開(公告)號: | CN106919700B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 馬應龍;馬建剛;丁婷 | 申請(專利權)人: | 華北電力大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33 |
| 代理公司: | 北京拉沃科創知識產權代理事務所(普通合伙) 11745 | 代理人: | 陳永寧 |
| 地址: | 102206 北京市昌平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 并行 cep 處理 語義 驅動 犯罪 線索 實時 推薦 方法 | ||
1.基于并行化CEP處理的語義驅動犯罪線索實時推薦方法,其特征在于,包括:
步驟1)爬取指定深度的網頁文本,具體為:
步驟11)分析指定網站的結構,根據種子URL編寫爬蟲程序;
步驟12)運行爬蟲程序爬取種子URL,在爬取過程中使用網頁解析技術抽取子鏈接;
步驟13)同時對子鏈接進行URL重復性檢測,對重復的子鏈接丟棄;
步驟2)提取爬取網頁文本的正文,提取正文關鍵詞,具體為:
步驟21)對網頁的子鏈接進行爬取并使用網頁解析技術抽取出子鏈接所代表的網頁文本中的標題,發布時間和正文;
步驟22)對正文使用關鍵詞提取技術,得到一個關鍵詞集合,將關鍵詞集合、標題、發布時間以及網頁文本的URL一起存入消息系統;
步驟3)依據某一具體犯罪類別的術語構建語義樹,將語義樹與提取的關鍵詞匹配,具體為:
步驟31)依據某一具體犯罪類別的術語的分類關系和相關關系,手動的將某一具體犯罪類別詞匯庫中的術語構建一棵犯罪的語義樹;
步驟32)語義樹從下到上對提取到的消息系統中的關鍵詞進行匹配,得到一個關于犯罪語義樹中每層結點的匹配個數的集合;
步驟4)根據語義樹的樹中每層結點的匹配個數以及權值的設置,編寫計算總權值的CEP的事件模式,具體為:
設結點所在層數為其權值,網頁文本的總權值便是每層匹配的結點個數與其權值的乘積之和,總權值的計算公式為:
Re表示總權值,wi表示i層結點對應的權值,li表示i層關鍵詞匹配的個數,結點個數為n,Re的值越大則表示與某一具體犯罪類別的相關性越高;
步驟5)多個CEP引擎并行處理事件模式,同時對總權值進行歸一化和降序排序,將排在前面的網頁實時推薦給用戶。
2.根據權利要求1所述的基于并行化CEP處理的語義驅動犯罪線索實時推薦方法,其特征在于,對總權值進行歸一化和降序排序,包括:
對每個網頁文本計算出來的總權值進行歸一化處理,歸一化處理后的總權值在0~1之間,將總權值越高的網頁優先推薦給用戶,歸一化處理的公式定義為:
網頁文本集合的大小為n,Wmax表示的是網頁文本集合中總權值最大的,Wmin表示的是網頁文本集合中總權值最小的,Wi表示為i個網頁文本的總權值,Wi'(1≤i≤n)則表示網頁文本集合中每個總權值歸一化處理后對應的值。
3.根據權利要求1所述的基于并行化CEP處理的語義驅動犯罪線索實時推薦方法,其特征在于,該方法還包括:
在將語義樹與提取的關鍵詞匹配過程中,如果匹配上的某結點存在上層結點,則需將上層結點放入已匹配結點集合,直到上層結點為根節點,因此關鍵詞的匹配先從犯罪語義樹的葉子結點開始,從下往上進行,且在已匹配結點集合中,每個結點只出現一次,最后計算每層匹配的結點個數,并將結果再次存入消息系統中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華北電力大學,未經華北電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710135699.6/1.html,轉載請聲明來源鉆瓜專利網。





