[發(fā)明專利]一種地址信息標準化方法、裝置、計算機設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	201910121905.7	申請日：	2019-02-18
公開（公告）號：	CN109960795A	公開（公告）日：	2019-07-02
發(fā)明（設(shè)計）人：	吳壯偉	申請（專利權(quán)）人：	平安科技（深圳）有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F16/29
代理公司：	深圳市世聯(lián)合知識產(chǎn)權(quán)代理有限公司 44385	代理人：	谷惠英
地址：	518000 廣東省深圳市福田區(qū)福***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	地址信息標準地址標準化生成模型預(yù)設(shè) 計算機設(shè)備存儲介質(zhì) 地址分詞候選地址分詞人工智能技術(shù) 輸入地址信息表達方式輸出地址庫預(yù)期的匹配轉(zhuǎn)化
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種地址信息標準化方法,其特征在于,包括下述步驟：

獲取待標準化的地址信息；

將所述地址信息輸入到預(yù)設(shè)的分詞模型中，得到所述分詞模型輸出的地址分詞；

將所述地址分詞與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址；

將所述候選地址輸入到預(yù)設(shè)的標準地址生成模型中，得到所述標準地址生成模型輸出的標準地址，其中，所述標準地址生成模型基于Seq2Seq模型。

2.根據(jù)權(quán)利要求1所述的地址信息標準化方法，其特征在于，在所述將所述地址信息輸入到預(yù)設(shè)的分詞模型中，得到所述分詞模型輸出的地址分詞的步驟中，所述分詞模型基于雙向最大匹配法。

3.根據(jù)權(quán)利要求1所述的地址信息標準化方法，其特征在于，所述將所述地址分詞與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址的步驟，包括下述步驟：

將所述地址分詞與預(yù)設(shè)的停用詞表進行比對，并刪除所述地址分詞中與所述停用詞表中重疊的詞，得到過濾后的地址分詞；

將所述過濾后的地址分詞與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址。

4.根據(jù)權(quán)利要求1所述的地址信息標準化方法，其特征在于，所述將所述地址分詞與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址的步驟，包括下述步驟：

根據(jù)所述地址分詞檢索預(yù)設(shè)的同義詞表，并在同義詞表中提取所述地址分詞中各分詞的同義詞，得到所述地址分詞的擴展結(jié)果，其中，所述擴展結(jié)果中包含所述地址分詞及各地址分詞的同義詞；

將所述擴展結(jié)果與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址。

5.根據(jù)權(quán)利要求4所述的地址信息標準化方法，其特征在于，在所述將所述擴展結(jié)果與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址的步驟中，包括下述步驟：

計算所述擴展結(jié)果與所述預(yù)設(shè)的地址庫中各常用地址的擴展詞覆蓋率和/或擴展詞順序覆蓋率，其中，所述擴展詞覆蓋率為所述擴展結(jié)果中的地址分詞或地址分詞的同義詞與所述常用地址重疊的詞數(shù)占所述地址分詞數(shù)的比例，所述擴展詞順序覆蓋率為所述擴展結(jié)果中的地址分詞或地址分詞的同義詞與所述常用地址順序重疊的詞數(shù)占所述地址分詞數(shù)的比例；

確定所述擴展詞覆蓋率和/或擴展詞順序覆蓋率最高的常用地址為所述地址信息對應(yīng)的候選地址。

6.根據(jù)權(quán)利要求5所述的地址信息標準化方法，其特征在于，通過以下公式確定所述擴展詞覆蓋率和擴展詞順序覆蓋率最高的常用地址為所述地址信息對應(yīng)的候選地址：

S＝aX+bY+cXY

其中，S為擴展結(jié)果與預(yù)設(shè)的地址庫中常用地址的匹配度，X為擴展詞覆蓋率，Y擴展詞順序覆蓋率，XY為綜合詞覆蓋率，a、b、c分別為擴展詞覆蓋率、擴展詞順序覆蓋率和綜合詞覆蓋率的權(quán)重。

7.根據(jù)權(quán)利要求1所述的地址信息標準化方法，其特征在于，在所述得到與所述地址信息對應(yīng)的候選地址將所述地址分詞與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址的步驟中，包括下述步驟：

計算所述地址分詞與所述預(yù)設(shè)的地址庫中各常用地址的詞覆蓋率和/或詞順序覆蓋率，其中，所述詞覆蓋率為所述地址分詞中與所述常用地址重疊的詞數(shù)占所述地址分詞數(shù)的比例，所述詞順序覆蓋率為所述地址分詞與所述常用地址順序重疊的詞數(shù)占所述地址分詞數(shù)的比例；

確定所述詞覆蓋率和/或詞順序覆蓋率最高的常用地址為所述地址信息對應(yīng)的候選地址。

8.一種地址信息標準化裝置，其特征在于，包括：

獲取模塊，用于獲取待標準化的地址信息；

分詞模塊，用于將所述地址信息輸入到預(yù)設(shè)的分詞模型中，得到所述分詞模型輸出的地址分詞；

匹配模塊，用于將所述地址分詞與預(yù)設(shè)的地址庫匹配，得到與所述地址信息對應(yīng)的候選地址；

執(zhí)行模塊，用于將所述候選地址輸入到預(yù)設(shè)的標準地址生成模型中，得到所述標準地址生成模型輸出的標準地址，其中，所述標準地址生成模型基于Seq2Seq模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技（深圳）有限公司，未經(jīng)平安科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910121905.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：判斷文本情感的裝置以及智能終端
下一篇：一種提取在線商品重量信息的方法和系統(tǒng)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】