[發(fā)明專利]一種證件號(hào)處理和檢索的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111623616.0 | 申請(qǐng)日: | 2021-12-28 |
| 公開(公告)號(hào): | CN114490599A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 向橋梁 | 申請(qǐng)(專利權(quán))人: | 連通(杭州)技術(shù)服務(wù)有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/22;G06F16/2458 |
| 代理公司: | 上海百一領(lǐng)御專利代理事務(wù)所(普通合伙) 31243 | 代理人: | 邵棟 |
| 地址: | 310052 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 證件 處理 檢索 方法 | ||
本申請(qǐng)?zhí)峁┝艘环N證件號(hào)處理和檢索方法,根據(jù)原始證件號(hào)進(jìn)行標(biāo)準(zhǔn)化處理和變體化處理,分別獲得標(biāo)準(zhǔn)證件號(hào)和變體證件號(hào),再對(duì)所述原始證件號(hào)、標(biāo)準(zhǔn)證件號(hào)和變體證件號(hào)中的至少一個(gè)證件號(hào)進(jìn)行模糊化,通過對(duì)證件號(hào)中的至少一個(gè)字符使用模糊符號(hào)進(jìn)行替換、刪除以及在證件號(hào)中插入模糊符號(hào)獲取編輯距離小于等于第一閾值的模糊證件號(hào),再將處理后的查詢證件號(hào)與匹配信息庫中處理后的名單證件號(hào)進(jìn)行匹配,將匹配命中的名單證件號(hào)所對(duì)應(yīng)的證件信息,作為證件信息檢索的檢索結(jié)果。其方案解決了在現(xiàn)有技術(shù)中無法避免在查詢證件號(hào)信息輸入不準(zhǔn)確的情況下,檢索證件號(hào)導(dǎo)致的漏報(bào)率較高的問題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種證件號(hào)處理和檢索的方法。
背景技術(shù)
在金融行業(yè)中,各金融機(jī)構(gòu)需要維持高度的合規(guī)來滿足監(jiān)管的需求,在風(fēng)控和評(píng)級(jí)中常常能見到某些金融機(jī)構(gòu)對(duì)其他主體進(jìn)行制裁的情況,其中需要列明制裁名單,在制裁名單中,常常通過證件號(hào)來查詢主體,比如,身份證,統(tǒng)一社會(huì)信用代碼等,因此經(jīng)常被用于制裁名單的篩查中。
但是,證件號(hào)的錄入有可能存在錯(cuò)誤,這會(huì)導(dǎo)致查詢?nèi)藛T輸入正確的證件號(hào)也無法查詢到。錯(cuò)誤回發(fā)生在人工收集、錄入、存儲(chǔ)、轉(zhuǎn)換等各個(gè)環(huán)節(jié)。比如,美國(guó)的海外資產(chǎn)控制辦公室OFAC發(fā)布的名單里包含多個(gè)國(guó)家的證件信息,其信息類型多而且格式不一致,如果在錄入的過程中出現(xiàn)錯(cuò)誤,即使輸入查詢的證件號(hào)正確,也無法查詢到結(jié)果。另一方面,查詢時(shí)手工輸入的證件號(hào)也可能有誤,導(dǎo)致即使名單里的證件號(hào)正確也無法查詢到結(jié)果。證件號(hào)一般很長(zhǎng)而且以數(shù)字為主,在查詢時(shí)很容易漏掉、寫錯(cuò)或者多寫字符。
現(xiàn)行對(duì)證件號(hào)的處理通常是把庫中的名單證件號(hào)或輸入查詢證件號(hào)共同轉(zhuǎn)換成新的證件號(hào)。這個(gè)新的證件號(hào)在格式上更加標(biāo)準(zhǔn),能提高雙方匹配的命中率。即對(duì)于名單里的原始證件號(hào)和用戶輸入的查詢證件號(hào)使用同樣的方法處理后再將兩者進(jìn)行匹配,獲得匹配結(jié)果。在現(xiàn)行的證件號(hào)匹配技術(shù)中主要是通過精確匹配,如果處理后的查詢證件號(hào)出現(xiàn)在處理后的名單證件號(hào)庫里就算命中。
但是,現(xiàn)行的證件號(hào)處理方法難以處理證件號(hào)信息不準(zhǔn)確的情況。證件號(hào)信息不準(zhǔn)確的具體表現(xiàn)是查詢?nèi)藛T或者錄入人員輸入時(shí)出錯(cuò)較多,將原始證件號(hào)與查詢證件號(hào)各自只生成一個(gè)新的證件號(hào)進(jìn)行比對(duì)匹配處理方法難以兼容不同的出錯(cuò)情況。當(dāng)證件號(hào)信息不準(zhǔn)確時(shí),如果處理時(shí)丟掉的信息太少,比如,把字母變成大寫并保留數(shù)字,則會(huì)導(dǎo)致漏報(bào)率增加,如果處理時(shí)丟掉的信息太多,比如,只保留數(shù)字,又會(huì)導(dǎo)致誤報(bào)率增加。
現(xiàn)行的模糊匹配方法用于匹配證件號(hào)在理論上可行,但是實(shí)際中很少使用。主要原因在于證件號(hào)是按照一定規(guī)律自動(dòng)生成,相鄰證件號(hào)之間的相似度比較高,一個(gè)證件號(hào)里出現(xiàn)少量錯(cuò)誤就很容易變成另一個(gè)證件號(hào)。這使得模糊匹配的誤報(bào)率顯著增加,從而失去了證件號(hào)檢索的意義。
所以,在現(xiàn)有技術(shù)中無法避免在證件號(hào)信息不準(zhǔn)確的情況下,檢索證件號(hào)導(dǎo)致的漏報(bào)率較高的問題。
發(fā)明內(nèi)容
本申請(qǐng)的一個(gè)目的是提供一種,用以解決現(xiàn)有技術(shù)中無法避免在查詢證件號(hào)信息不準(zhǔn)確的情況下,檢索證件號(hào)導(dǎo)致的漏報(bào)率較高的問題。
為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┝艘环N證件號(hào)處理方法,用于對(duì)證件信息檢索時(shí)輸入的查詢證件號(hào)和/或匹配信息庫中的名單證件號(hào)進(jìn)行處理,包括:
對(duì)所述原始證件號(hào)進(jìn)行標(biāo)準(zhǔn)化處理和變體化處理,分別獲得標(biāo)準(zhǔn)化處理的標(biāo)準(zhǔn)證件號(hào)和變體化處理的變體證件號(hào),其中,所述原始證件號(hào)為證件信息檢索時(shí)輸入的查詢證件號(hào)和/或匹配信息庫中的名單證件號(hào),所述標(biāo)準(zhǔn)化包括刪除原始證件號(hào)中的無關(guān)字符、統(tǒng)一字符格式和刪除起始位置處的預(yù)設(shè)數(shù)字,所述變體化處理包括在刪除原始證件號(hào)中的無關(guān)字符、刪除起始位置處的預(yù)設(shè)數(shù)字的基礎(chǔ)上,進(jìn)一步刪除至少一個(gè)字符;
對(duì)所述原始證件號(hào)、標(biāo)準(zhǔn)證件號(hào)和變體證件號(hào)中的至少一個(gè)證件號(hào)進(jìn)行模糊化處理,獲取編輯距離小于等于第一閾值的模糊證件號(hào),所述模糊化處理包括對(duì)證件號(hào)中的至少一個(gè)字符使用模糊符號(hào)進(jìn)行替換、刪除以及在證件號(hào)中插入模糊符號(hào);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于連通(杭州)技術(shù)服務(wù)有限公司,未經(jīng)連通(杭州)技術(shù)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111623616.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





