[發明專利]一種融合地理位置和文本相似性的警情自動下發方法有效
| 申請號: | 201910689245.2 | 申請日: | 2019-07-29 |
| 公開(公告)號: | CN110532546B | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 宋凱磊;韓志卓;司佳;侯位昭;齊幸輝;張世立;董德華 | 申請(專利權)人: | 中國電子科技集團公司第五十四研究所;河北遠東通信系統工程有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/295;G06F40/30;G06F16/29;G06F18/22;G06F18/241 |
| 代理公司: | 河北東尚律師事務所 13124 | 代理人: | 王文慶 |
| 地址: | 050081 河*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 地理位置 和文 相似性 自動 下發 方法 | ||
1.一種融合地理位置和文本相似性的警情自動下發方法,其特征在于,包括以下步驟:
(1)當新警情到達時,根據警情中的中文地址,調用地圖API,獲取地址經緯度和地址理解度;
(2)借助jieba分詞將中文地址切分為中文地址分詞;
(3)根據中文地址分詞,查詢基于FastText分類器訓練出的詞向量庫,得到中文地址的向量化表示,即中文地址詞向量;
(4)根據地址理解度設置基于位置坐標相似性和中文地址文本語義相似性的自適應權重,其中,位置坐標相似性通過計算兩個地址經緯度的余弦值得到,中文地址文本語義相似性通過計算兩個中文地址詞向量的余弦值得到;具體方式為:
(401)根據地址理解度計算非線性權重w:
w=1/(1+e-(θ-90));
其中,θ為地圖API返回的地址理解度,其用于度量地址編碼解析服務的準確度,e為自然對數的底;
(402)基于非線性權重w,得到所述自適應權重:
AdaSim=w×LSim+(1-w)×TSim;
其中,AdaSim表示自適應權重,LSim表示位置坐標相似性,TSim表示中文地址文本語義相似性;
(5)將所得到的地址經緯度、中文地址詞向量和自適應權重輸入給加權K最近鄰分類算法,得到分類結果,即派出所id;
(6)根據派出所id將警情下發給對應派出所。
2.根據權利要求1所述的一種融合地理位置和文本相似性的警情自動下發方法,其特征在于,所述步驟(2)的具體方式為:
(201)利用網絡爬蟲技術獲取國家統計局公布的某地的市、縣/區、鄉/鎮、村/社區的地名信息;
(202)結合警情下發歷史數據,利用正則表達式提取該地各小區的專有地名;
(203)構建包含該地的市、縣/區、鄉/鎮、村/社區以及小區專有地名的專有地名字典;
(204)利用該地的專有地名字典,輔助jieba分詞將中文地址劃分成市、區、街道、街道號、小區、樓房號、單元號、房牌號的形式,形成符合FastText分類器輸入的樣本數據。
3.根據權利要求1所述的一種融合地理位置和文本相似性的警情自動下發方法,其特征在于,所述步驟(3)中詞向量庫的訓練方式為:
(301)將警情下發歷史數據中的中文地址切分后作為FastText分類器的輸入樣本;
(302)設置FastText分類器的參數,所述參數包括學習率lr、樣本數據被訓練的次數echo、詞序列窗口大小n-gram,其中,n-gram、lr和echo的值采用5折交叉驗證算法選取;
(303)開始FastText分類器訓練,并用警情推送場景下的準確率和耗時評估FastText分類器的訓練結果,當樣本數據訓練次數達到echo時,FastText分類器訓練結束,得到警情自動下發領域中文地址的詞向量庫,該詞向量庫以矩陣形式存儲有中文地址切分所得詞匯的詞向量;
所述步驟(3)中查詢基于FastText分類器訓練出的詞向量庫的具體方式為:
(311)根據警情下發歷史數據中分詞首次出現的順序,將所述步驟(2)中切分好的各中文地址分詞分別映射為索引,對索引進行one-hot編碼,得到索引序列矩陣;
(312)將索引序列矩陣與詞向量庫矩陣相乘,得到各分詞的詞向量;
(313)對各分詞的詞向量進行疊加平均,得到中文地址的詞向量。
4.根據權利要求1所述的一種融合地理位置和文本相似性的警情自動下發方法,其特征在于,所述步驟(5)中,加權K最近鄰分類算法的K個最近鄰樣本中的第i個樣本的權值為:
其中,AdaSim表示自適應權重。
5.根據權利要求1所述的一種融合地理位置和文本相似性的警情自動下發方法,其特征在于,所述地圖API為百度地圖API。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第五十四研究所;河北遠東通信系統工程有限公司,未經中國電子科技集團公司第五十四研究所;河北遠東通信系統工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910689245.2/1.html,轉載請聲明來源鉆瓜專利網。





