[發明專利]篩選清單的方法和裝置在審
| 申請號: | 202011480665.9 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112579646A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 鐘榮清;楊佳;劉丹 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06Q40/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張效榮;馮培培 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 篩選 清單 方法 裝置 | ||
本發明公開了一種篩選清單的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:根據篩選請求中的篩查數據,確定待篩選清單的清單數據與所述篩查數據的調整的編輯距離LD相似度以及LD相似度分值;從所述待篩選清單中篩選出LD相似度超過第一閾值的候選清單,并確定所述候選清單的清單數據與所述篩查數據的最長公共子系列LCS相似度以及LCS相似度分值;若所述候選清單的LCS相似度最大值超過第二閾值,則根據所述LD相似度分值和所述LCS相似度分值,從所述候選清單中篩選出符合要求的清單。該實施方式將LD相似度算法和LCS算法結合來更加準確地計算相似度,進而可以獲取有效特征來實現清單的準確匹配。
技術領域
本發明涉及計算機技術領域,尤其涉及一種篩選清單的方法和裝置。
背景技術
清單篩查匹配常用于反洗錢與反恐怖融資名單監控,是金融機構防范本機構的金融服務被不法分子利用的重要手段,有助于機構業務部門定位客戶是否屬于監管機構業務限制人員。但是,現有篩選清單的方法的篩選準確率低,無法滿足業務需求。
發明內容
有鑒于此,本發明實施例提供一種篩選清單的方法和裝置,能夠解決現有篩選清單的方法篩選準確率低的問題。
為實現上述目的,根據本發明實施例的一個方面,提供了一種篩選清單的方法。
本發明實施例的篩選清單的方法包括:
根據篩選請求中的篩查數據,確定待篩選清單的清單數據與所述篩查數據的調整的編輯距離LD相似度以及LD相似度分值;
從所述待篩選清單中篩選出LD相似度超過第一閾值的候選清單,并確定所述候選清單的清單數據與所述篩查數據的最長公共子系列LCS相似度以及LCS相似度分值;
若所述候選清單的LCS相似度最大值超過第二閾值,則根據所述LD相似度分值和所述LCS相似度分值,從所述候選清單中篩選出符合要求的清單。
可選地,在根據篩選請求中的篩查數據,確定待篩選清單的清單數據與所述篩查數據的調整的編輯距離LD相似度分值的步驟之前,所述方法還包括:
基于Solr引擎,根據待篩選清單的清單數據創建待篩選清單的索引。
可選地,基于Solr引擎,根據待篩選清單的清單數據創建待篩選清單的索引包括:
將待篩選清單的清單數據進行結構化處理;
去除所述清單數據中的標點符號、ASCII碼以及停用詞;
基于所述清單數據對應的語言方式,將所述清單數據進行去重處理;
根據去重處理后的清單數據創建待篩選清單的索引。
可選地,基于所述清單數據對應的語言方式,將所述清單數據進行去重處理包括:
若所述清單數據所對應的語言方式為英文,則將所述清單數據中的英文單詞轉換為英文小寫單詞;
若所述清單數據所對應的語言方式為繁體中文,則將所述清單數據中的繁體中文單詞轉換為簡體中文單詞;
將轉換后的清單數據進行去重處理。
可選地,所述篩查數據為客戶名稱;根據篩選請求中的篩查數據,確定待篩選清單的清單數據與所述篩查數據的調整的編輯距離LD相似度以及LD相似度分值包括:
若所述篩查數據所對應的語言方式為英文或除中文和英文之外的其他語言,則確定待篩選清單的清單數據與所述篩查數據的LD相似度;
若LD相似度超過第一閾值,則根據LD相似度確定LD相似度分值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011480665.9/2.html,轉載請聲明來源鉆瓜專利網。





