[發(fā)明專(zhuān)利]基于狀態(tài)位的中文地址去重方法、系統(tǒng)及設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110037776.0 | 申請(qǐng)日: | 2021-01-12 |
| 公開(kāi)(公告)號(hào): | CN112732984A | 公開(kāi)(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 虞開(kāi)穩(wěn) | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京明略昭輝科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/903 | 分類(lèi)號(hào): | G06F16/903;G06F16/906;G06F16/901 |
| 代理公司: | 青島清泰聯(lián)信知識(shí)產(chǎn)權(quán)代理有限公司 37256 | 代理人: | 李紅巖 |
| 地址: | 100089 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 狀態(tài) 中文 地址 方法 系統(tǒng) 設(shè)備 | ||
本申請(qǐng)公開(kāi)了一種基于狀態(tài)位的中文地址去重方法、系統(tǒng)及設(shè)備,所述方法具體包括以下步驟:獲取原始地址數(shù)據(jù);結(jié)合全國(guó)行政區(qū)劃數(shù)據(jù)獲取所述原始地址數(shù)據(jù)中的前三級(jí)別地址以及后綴地址字符串;利用HashSet對(duì)所述原始地址數(shù)據(jù)進(jìn)行遍歷,設(shè)置對(duì)應(yīng)所述原始地址數(shù)據(jù)的狀態(tài)位;對(duì)所述狀態(tài)位進(jìn)行檢查,糾正所述狀態(tài)位;根據(jù)糾正后的所述狀態(tài)位去除重復(fù)的所述前三級(jí)別地址及/或后綴地址。通過(guò)本申請(qǐng),確保找到地址字符串自身的重復(fù)字符,對(duì)地址字符串進(jìn)行去冗余化。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域。更具體的說(shuō),本發(fā)明涉及一種基于狀態(tài)位的中文地址去重方法、系統(tǒng)及設(shè)備。
背景技術(shù)
隨著中文搜索引擎和數(shù)據(jù)挖掘技術(shù)的發(fā)展,高效中文地址判重技術(shù)也到了飛速發(fā)展,并且受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。中文地址相比較英文地址,寫(xiě)法多變,語(yǔ)義復(fù)雜,對(duì)中文地址的判重更加具有挑戰(zhàn)性。
一般來(lái)講,中文地址需要處理的業(yè)務(wù)場(chǎng)景有快遞地址填寫(xiě)、銀行信貸人檢查和公檢法部門(mén)個(gè)人信息查詢等。尤其是在快遞行業(yè),快件數(shù)量近些年以物流行業(yè)發(fā)展為基礎(chǔ)呈指數(shù)增長(zhǎng)態(tài)勢(shì),快件收寄的準(zhǔn)確性對(duì)地址的準(zhǔn)確度提出了挑戰(zhàn)。現(xiàn)有的各種數(shù)據(jù)去重方法主要集中在處理文本數(shù)據(jù)相似度的判斷,數(shù)據(jù)間依賴(lài)關(guān)系判斷,數(shù)據(jù)縮寫(xiě)的判斷等問(wèn)題上,對(duì)于中文地址去重處理上仍存在以下問(wèn)題:
1、在地址的填寫(xiě)上,對(duì)于地址僅限于省市區(qū)縣等前三級(jí)地址的系統(tǒng)選擇填寫(xiě),甚至有可能全部的地址都是人工填寫(xiě)然后通過(guò)機(jī)器掃描得到最終地址,字符識(shí)別系統(tǒng)還不能夠保證完全準(zhǔn)確地識(shí)別漢字,因此不可避免地可能會(huì)發(fā)生地址丟失、部分地址重復(fù)導(dǎo)致信息冗余、掃描錯(cuò)誤等情況;
2、針對(duì)多條地址進(jìn)行重復(fù)性判斷主要針對(duì)的是同一地址多種表達(dá)的情況,不能夠?qū)螚l地址本身去除冗余信息或者規(guī)范化;
3、地址字符串除開(kāi)省市區(qū)縣等前三級(jí)地址外,其余地址表達(dá)相對(duì)靈活,無(wú)法統(tǒng)一進(jìn)行去重。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供了一種基于狀態(tài)位的中文地址去重方法,以至少解決相關(guān)技術(shù)中主觀因素影響的問(wèn)題。
本發(fā)明提供了一種基于狀態(tài)位的中文地址去重方法,所述方法包括以下步驟:
數(shù)據(jù)獲取步驟:獲取原始地址數(shù)據(jù);
地址獲取步驟:結(jié)合全國(guó)行政區(qū)劃數(shù)據(jù)獲取所述原始地址數(shù)據(jù)中的前三級(jí)別地址以及后綴地址字符串;
遍歷步驟:利用HashSet對(duì)所述原始地址數(shù)據(jù)進(jìn)行遍歷,設(shè)置對(duì)應(yīng)所述原始地址數(shù)據(jù)的狀態(tài)位;
檢查步驟:對(duì)所述狀態(tài)位進(jìn)行檢查,糾正所述狀態(tài)位;
重復(fù)去除步驟:根據(jù)糾正后的所述狀態(tài)位去除重復(fù)的所述前三級(jí)別地址及/或后綴地址。
作為本發(fā)明的進(jìn)一步改進(jìn),所述地址獲取步驟中的所述前三級(jí)別地址包括省市區(qū)縣的隸屬關(guān)系。
作為本發(fā)明的進(jìn)一步改進(jìn),所述狀態(tài)位分為重復(fù)狀態(tài)位和非重復(fù)狀態(tài)位。
作為本發(fā)明的進(jìn)一步改進(jìn),所述檢查步驟具體包括以下步驟:
狀態(tài)位糾正步驟:對(duì)所述狀態(tài)位進(jìn)行糾正;
后綴檢查步驟:對(duì)所述狀態(tài)位進(jìn)行重復(fù)字串后綴檢查。
作為本發(fā)明的進(jìn)一步改進(jìn),所述狀態(tài)位糾正步驟具體包括以下步驟:
第一判斷步驟:判斷所述重復(fù)狀態(tài)位是否連續(xù)大于等于兩位;
第一糾正步驟:若是則所述重復(fù)狀態(tài)位不變,若否則將所述重復(fù)狀態(tài)位糾正為所述非重復(fù)狀態(tài)位。
作為本發(fā)明的進(jìn)一步改進(jìn),所述后綴檢查步驟具體包括以下步驟:
設(shè)置步驟:設(shè)置后綴集合;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京明略昭輝科技有限公司,未經(jīng)北京明略昭輝科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110037776.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 狀態(tài)檢測(cè)裝置及狀態(tài)檢測(cè)方法
- 狀態(tài)估計(jì)裝置以及狀態(tài)估計(jì)方法
- 經(jīng)由次級(jí)狀態(tài)推斷管理狀態(tài)
- 狀態(tài)估計(jì)裝置及狀態(tài)估計(jì)方法
- 狀態(tài)估計(jì)裝置、狀態(tài)估計(jì)方法
- 狀態(tài)預(yù)測(cè)裝置以及狀態(tài)預(yù)測(cè)方法
- 狀態(tài)推定裝置、狀態(tài)推定方法和狀態(tài)推定程序
- 狀態(tài)檢測(cè)系統(tǒng)及狀態(tài)檢測(cè)方法
- 狀態(tài)判定裝置、狀態(tài)判定方法以及狀態(tài)判定程序
- 狀態(tài)判斷裝置以及狀態(tài)判斷方法





