[發(fā)明專利]地址相似度確定方法、裝置和計(jì)算機(jī)設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110690657.5 | 申請(qǐng)日: | 2021-06-22 |
| 公開(公告)號(hào): | CN113343688A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計(jì))人: | 王濟(jì)宣;侯亦楊 | 申請(qǐng)(專利權(quán))人: | 南京星云數(shù)字技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/216 |
| 代理公司: | 北京市萬慧達(dá)律師事務(wù)所 11111 | 代理人: | 勞奕琴 |
| 地址: | 211800 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 地址 相似 確定 方法 裝置 計(jì)算機(jī) 設(shè)備 | ||
本申請(qǐng)涉及一種地址相似度確定方法、裝置和計(jì)算機(jī)設(shè)備。地址相似度確定方法包括:獲取第一原始地址中的第一具體地址信息,以及獲取第二原始地址中的第二具體地址信息;采用N?Gram模型對(duì)第一具體地址信息進(jìn)行分詞,得到第一系列分詞,以及采用N?Gram模型對(duì)第二具體地址信息進(jìn)行分詞,得到第二系列分詞;對(duì)第一系列分詞和第二系列分詞進(jìn)行相似度計(jì)算,獲得第一類相似度值;根據(jù)第一類相似度值,確定第一原始地址和第二原始地址的相似度。采用本方法能準(zhǔn)確確定第一原始地址和第二原始地址的相似度。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種地址相似度確定方法、裝置和計(jì)算機(jī)設(shè)備。
背景技術(shù)
目前,地址相似度判斷的技術(shù)廣泛應(yīng)用于各領(lǐng)域,如金融保險(xiǎn)領(lǐng)域,需要偵測用戶有意或無意狀況下提供的虛假錯(cuò)誤地址從而進(jìn)行更加準(zhǔn)確的信用判斷,作為電商平臺(tái)需要偵測用戶的收貨地址從而判斷刷單等行為。在具體應(yīng)用場合中,大量相似度較高的地址可能被當(dāng)作異常地址,計(jì)算機(jī)會(huì)根據(jù)這些地址生成異常地址列表,供審核人員專門審核或處理。
目前常用的地址相似度判斷的方法主要是使用字符串間的屬性進(jìn)行比較,例如文本編輯距離,或其他字符串距離算法。然而,由于地址字符串一般不能通過差多少字來展現(xiàn)其差別,例如“南京市北京西路100號(hào)”和“上海市北京西路100號(hào)”,從文本上11個(gè)字符中僅相差2個(gè)字符,但是實(shí)際上完全不指代同一地址或是接近的地址。因此,此類方法對(duì)地址相似度的判斷,準(zhǔn)確度較低。
發(fā)明內(nèi)容
基于此,有必要針對(duì)上述技術(shù)問題,提供一種地址相似度確定方法、裝置和計(jì)算機(jī)設(shè)備,能夠提高地址相似度的準(zhǔn)確度。
一種地址相似度確定方法,包括:
獲取第一原始地址中的第一具體地址信息,所述第一具體地址信息為由所述第一原始地址中除行政區(qū)域信息之外的地址信息構(gòu)成,以及獲取第二原始地址中的第二具體地址信息,所述第二具體地址信息為由所述第二原始地址中除行政區(qū)域信息之外的地址信息構(gòu)成,其中,所述第一原始地址的行政區(qū)域信息和所述第二原始地址的行政區(qū)域信息表征同一行政區(qū)域;采用N-Gram模型對(duì)所述第一具體地址信息進(jìn)行分詞,得到第一系列分詞,以及采用N-Gram模型對(duì)所述第二具體地址信息進(jìn)行分詞,得到第二系列分詞;對(duì)所述第一系列分詞和所述第二系列分詞進(jìn)行相似度計(jì)算,獲得第一類相似度值;根據(jù)所述第一類相似度值,確定所述第一原始地址和所述第二原始地址的相似度。
在其中一個(gè)實(shí)施例中,所述第一具體地址信息包括第一描述字段和第一門牌信息,所述采用N-Gram模型對(duì)所述第一具體地址信息進(jìn)行分詞,得到第一系列分詞,包括:采用所述N-Gram模型對(duì)所述第一描述字段進(jìn)行分詞,得到所述第一系列分詞;所述第二具體地址信息包括第二描述字段和第二門牌信息,所述采用N-Gram模型對(duì)所述第二具體地址信息進(jìn)行分詞,得到第二系列分詞,包括:采用所述N-Gram模型對(duì)所述第二描述字段進(jìn)行分詞,得到所述第二系列分詞;所述方法還包括:對(duì)所述第一門牌信息和所述第二門牌信息進(jìn)行相似度計(jì)算,獲得第二類相似度值;所述根據(jù)所述第一類相似度值,確定所述第一原始地址和所述第二原始地址的相似度,包括:根據(jù)所述第一類相似度值和所述第二類相似度值,確定所述第一原始地址和所述第二原始地址的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京星云數(shù)字技術(shù)有限公司,未經(jīng)南京星云數(shù)字技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110690657.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





