[發明專利]一種風險地址識別方法、裝置以及電子設備有效
| 申請號: | 201710543805.4 | 申請日: | 2017-07-05 |
| 公開(公告)號: | CN107526967B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 孫清清 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F16/33;G06K9/62 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 周莉娜 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 風險 地址 識別 方法 裝置 以及 電子設備 | ||
1.一種風險地址識別方法,所述的方法包括:
獲取輸入地址對應的地址詞序列,所述地址詞序列是通過對輸入地址進行處理后得到的;
在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞;
根據所述確定的地址詞以及所述地址詞在所述地址詞序列中的關聯詞,生成所述地址詞序列對應的觀察序列;所述關聯詞反映所述地址詞在所述地址詞序列中的前后語義;
利用基于地址詞前后語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率;
通過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。
2.如權利要求1所述的方法,所述獲取輸入地址對應的地址詞序列,具體包括:
接收輸入地址;
通過對所述輸入地址進行數據清洗處理和分詞處理,得到所述輸入地址對應的地址詞序列。
3.如權利要求1所述的方法,所述在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,具體包括:
利用各風險地址對應的風險詞,對所述地址詞序列中的各地址詞分別進行匹配;
若存在匹配成功的所述地址詞,對其進行標注,并確定為命中各風險地址對應的風險詞的地址詞。
4.如權利要求3所述的方法,所述在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,還包括:
若不存在匹配成功的地址詞,確定所述輸入地址不為風險地址。
5.如權利要求3所述的方法,所述根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列,具體包括:
分別針對所述確定的地址詞,執行:根據該地址詞以及該地址詞在所述地址詞序列中的關聯詞,生成所述地址詞序列對應的觀察序列,其中,所述關聯詞反映該地址詞在所述地址詞序列中的前后語義。
6.如權利要求1所述的方法,基于地址詞前后語義學習得到隱馬爾科夫模型包括:
根據預定義的訓練樣本,提取初始參數,并根據所述初始參數建立包含隱馬爾科夫模型參數的初始模型,其中,所述訓練樣本為風險地址或者非風險地址;
根據所述訓練樣本中包含的地址詞以及所述地址詞的前后語義,生成所述訓練樣本對應的觀察序列;
根據所述初始模型,以及所述訓練樣本對應的觀察序列,對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。
7.如權利要求6所述的方法,所述初始參數包括:初始概率向量、狀態轉移矩陣;
所述根據預定義的訓練樣本,提取初始參數,具體包括:
基于預定義的多個訓練樣本,通過對所述訓練樣本包含的地址詞分別進行概率標注,得到初始概率向量;
根據所述訓練樣本包含的所述地址詞在風險詞與非風險詞之間狀態轉移概率,獲得所述樣本地址的狀態轉移矩陣。
8.如權利要求6所述的方法,所述根據所述初始模型,以及所述訓練樣本對應的觀察序列,對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型,具體包括:
根據所述初始模型,以及所述訓練樣本對應的觀察序列,利用Baum-Welch算法對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。
9.如權利要求1所述的方法,所述利用基于地址詞前后語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,具體包括:
利用基于地址詞前后語義學習得到的隱馬爾科夫模型和Viterbi算法,對所述觀察序列進行處理,得到決策向量。
10.如權利要求1所述的方法,所述對所述決策向量進行分類判決,具體包括:
利用訓練得到的支持向量機SVM模型,對所述決策向量進行分類判決。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710543805.4/1.html,轉載請聲明來源鉆瓜專利網。





