[發明專利]一種面向大型活動公安系統警衛安保的多源異構數據分析方法在審
| 申請號: | 202010625497.1 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111967494A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 李曉理;卜坤;王康 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06F16/35;G06N3/08;G06Q50/26 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 大型活動 公安系統 警衛 安保 多源異構 數據 分析 方法 | ||
1.一種面向大型活動公安系統警衛安保的多源異構數據分析方法,其特征在于:包括以下步驟:
步驟1:對網絡社交賬戶所發布的文本內容進行情感分析,找出具有犯罪傾向的賬戶;利用Keras框架下的LSTM算法對網絡社交文本數據進行情感評估,初步篩選出犯罪傾向人群;
步驟2:對犯罪傾向人員進行畫像,利用Tensorflow框架下的LSTM算法對步驟1篩選出的重點賬戶內容與重點賬戶搜索記錄進行中文文本多標簽分類,對初步篩選出的犯罪傾向人群的學歷、年齡、性別和籍貫信息進行推斷;
步驟3:犯罪傾向人員軌跡分析與信息抽取模型;采用DBSCAN算法對犯罪傾向人員進行軌跡分析以及利用Python對社交賬戶進行信息抽取,對于頻繁往返于目標地點的人群進行軌跡點聚類,結合軌跡產生時間進行綜合分析;對社交賬戶進行監控,利用Python語言進行編程,對目標賬戶的聊天記錄信息進行信息抽取得到情報。
2.根據權利要求1所述的一種面向大型活動公安系統警衛安保的多源異構數據分析方法,其特征在于:對網絡社交賬戶所發布的文本內容進行情感分析,找出具有犯罪傾向的賬戶,具體方法如下:
文本向量化:Word2Vec算法在捕捉語境信息的同時壓縮數據規模;Word2Vec實際上是兩種不同的方法:Continuous Bag ofWords和Skip-gram;CBOW的目標是根據上下文來預測當前詞語;Skip-gram根據當前詞語來預測上下文;起初,每個單詞都是一個隨機的N維向量;經過訓練之后,Word2Vec算法利用CBOW或者Skip-gram的方法獲得每個單詞的最優向量即詞向量;詞向量已經捕捉到上下文信息;利用基本代數公式來發現單詞之間的關系;這些單詞向量代替詞袋模型用來預測未知數據的情感狀況;
LSTM網絡將詞向量送入神經網絡中,LSTM共有兩條線,一條明線,包含當前時刻的數據流;一條暗線,包含這個細胞本身的記憶流;在“輸入門”中,根據當前的數據流來控制接受細胞記憶的影響;接著,在“遺忘門”里,更新這個細胞的記憶和數據流;然后在“輸出門”里產生輸出更新后的記憶和數據流;
算法流程:加載訓練文件并進行中文分詞;創建詞語字典,并返回每個詞語的索引,詞向量,以及每個句子所對應的詞語索引;采用Python中的keras庫實現LSTM網絡并訓練網絡保存。
3.根據權利要求1所述的一種面向大型活動公安系統警衛安保的多源異構數據分析方法,其特征在于:對犯罪傾向人員進行畫像,實現精準打擊,有效預防,方法如下:
S1文本類別轉換為Id,便于以后的分類模型的訓練;
S2將文本類別轉換成Id后,由于數據都是中文,對中文進行預處理工作,所有在使用這些文本數據之前要進行數據清洗;
S3數據預處理完成以后,接下來開始進行LSTM的建模工作:要將cut_review數據進行向量化處理,要將每條cut_review轉換成一個整數序列的向量,設置最頻繁使用的50000個詞設置每條cut_review最大的詞語數為250個;
S4定義LSTM的序列模型:模型的第一層是嵌入層Embedding,使用長度為100的向量來表示每一個詞語;SpatialDropout1D層在訓練中每次更新時,將輸入單元的按比率隨機設置為0;LSTM層包含100個記憶單元,輸出層為包含10個分類的全連接層;由于是中文文本多標簽分類,所以激活函數設置為'softmax',損失函數為分類交叉熵categorical_crossentropy。
4.根據權利要求1所述的一種面向大型活動公安系統警衛安保的多源異構數據分析方法,其特征在于:犯罪傾向人員軌跡分析與信息抽取模型;在上一步將處理后得到了人員畫像,對于頻繁往來于活動舉辦地與籍貫地之間的人員進行軌跡分析,軌跡數據選取微軟亞洲研究院的Geolife軌跡數據,Geolife軌跡數據的GPS軌跡由一系列時間戳點表示,每個時間戳點包含緯度、經度和高度信息;首先讀入數據,并選出需要的經緯度數據,在谷歌地圖上展示用戶軌跡,然后利用DBSCAN算法對數據集進行聚類后計算每個聚類的中心點;每一個聚類都表示用戶經常到訪該區域;假設用戶的工作地點和居住地點就在這4個聚類中;重新讀取數據,查看每個聚類中的小時分布并將工作地點和居住地點的推斷在圖上展示;對社交賬戶進行監控,抽取文本中的情報信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010625497.1/1.html,轉載請聲明來源鉆瓜專利網。





