[發(fā)明專利]一種地址信息標準化方法、裝置、計算機設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910121905.7 | 申請日: | 2019-02-18 |
| 公開(公告)號: | CN109960795A | 公開(公告)日: | 2019-07-02 |
| 發(fā)明(設(shè)計)人: | 吳壯偉 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/29 |
| 代理公司: | 深圳市世聯(lián)合知識產(chǎn)權(quán)代理有限公司 44385 | 代理人: | 谷惠英 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 地址信息 標準地址 標準化 生成模型 預(yù)設(shè) 計算機設(shè)備 存儲介質(zhì) 地址分詞 候選地址 分詞 人工智能技術(shù) 輸入地址信息 表達方式 輸出 地址庫 預(yù)期的 匹配 轉(zhuǎn)化 | ||
1.一種地址信息標準化方法,其特征在于,包括下述步驟:
獲取待標準化的地址信息;
將所述地址信息輸入到預(yù)設(shè)的分詞模型中,得到所述分詞模型輸出的地址分詞;
將所述地址分詞與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址;
將所述候選地址輸入到預(yù)設(shè)的標準地址生成模型中,得到所述標準地址生成模型輸出的標準地址,其中,所述標準地址生成模型基于Seq2Seq模型。
2.根據(jù)權(quán)利要求1所述的地址信息標準化方法,其特征在于,在所述將所述地址信息輸入到預(yù)設(shè)的分詞模型中,得到所述分詞模型輸出的地址分詞的步驟中,所述分詞模型基于雙向最大匹配法。
3.根據(jù)權(quán)利要求1所述的地址信息標準化方法,其特征在于,所述將所述地址分詞與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址的步驟,包括下述步驟:
將所述地址分詞與預(yù)設(shè)的停用詞表進行比對,并刪除所述地址分詞中與所述停用詞表中重疊的詞,得到過濾后的地址分詞;
將所述過濾后的地址分詞與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址。
4.根據(jù)權(quán)利要求1所述的地址信息標準化方法,其特征在于,所述將所述地址分詞與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址的步驟,包括下述步驟:
根據(jù)所述地址分詞檢索預(yù)設(shè)的同義詞表,并在同義詞表中提取所述地址分詞中各分詞的同義詞,得到所述地址分詞的擴展結(jié)果,其中,所述擴展結(jié)果中包含所述地址分詞及各地址分詞的同義詞;
將所述擴展結(jié)果與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址。
5.根據(jù)權(quán)利要求4所述的地址信息標準化方法,其特征在于,在所述將所述擴展結(jié)果與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址的步驟中,包括下述步驟:
計算所述擴展結(jié)果與所述預(yù)設(shè)的地址庫中各常用地址的擴展詞覆蓋率和/或擴展詞順序覆蓋率,其中,所述擴展詞覆蓋率為所述擴展結(jié)果中的地址分詞或地址分詞的同義詞與所述常用地址重疊的詞數(shù)占所述地址分詞數(shù)的比例,所述擴展詞順序覆蓋率為所述擴展結(jié)果中的地址分詞或地址分詞的同義詞與所述常用地址順序重疊的詞數(shù)占所述地址分詞數(shù)的比例;
確定所述擴展詞覆蓋率和/或擴展詞順序覆蓋率最高的常用地址為所述地址信息對應(yīng)的候選地址。
6.根據(jù)權(quán)利要求5所述的地址信息標準化方法,其特征在于,通過以下公式確定所述擴展詞覆蓋率和擴展詞順序覆蓋率最高的常用地址為所述地址信息對應(yīng)的候選地址:
S=aX+bY+cXY
其中,S為擴展結(jié)果與預(yù)設(shè)的地址庫中常用地址的匹配度,X為擴展詞覆蓋率,Y擴展詞順序覆蓋率,XY為綜合詞覆蓋率,a、b、c分別為擴展詞覆蓋率、擴展詞順序覆蓋率和綜合詞覆蓋率的權(quán)重。
7.根據(jù)權(quán)利要求1所述的地址信息標準化方法,其特征在于,在所述得到與所述地址信息對應(yīng)的候選地址將所述地址分詞與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址的步驟中,包括下述步驟:
計算所述地址分詞與所述預(yù)設(shè)的地址庫中各常用地址的詞覆蓋率和/或詞順序覆蓋率,其中,所述詞覆蓋率為所述地址分詞中與所述常用地址重疊的詞數(shù)占所述地址分詞數(shù)的比例,所述詞順序覆蓋率為所述地址分詞與所述常用地址順序重疊的詞數(shù)占所述地址分詞數(shù)的比例;
確定所述詞覆蓋率和/或詞順序覆蓋率最高的常用地址為所述地址信息對應(yīng)的候選地址。
8.一種地址信息標準化裝置,其特征在于,包括:
獲取模塊,用于獲取待標準化的地址信息;
分詞模塊,用于將所述地址信息輸入到預(yù)設(shè)的分詞模型中,得到所述分詞模型輸出的地址分詞;
匹配模塊,用于將所述地址分詞與預(yù)設(shè)的地址庫匹配,得到與所述地址信息對應(yīng)的候選地址;
執(zhí)行模塊,用于將所述候選地址輸入到預(yù)設(shè)的標準地址生成模型中,得到所述標準地址生成模型輸出的標準地址,其中,所述標準地址生成模型基于Seq2Seq模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910121905.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





