[發明專利]中英文地址自動檢測方法及系統在審
| 申請號: | 201810330903.4 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN110377897A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 鐘萍 | 申請(專利權)人: | 順豐科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京瑞盟知識產權代理有限公司 11300 | 代理人: | 劉昕 |
| 地址: | 518000 廣東省深圳市南山區學府路(以南)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中英文 校驗 自動檢測 詞組 提示信息 分詞 英文 拼音 地址對應關系 預處理 數據預處理 詞性處理 地址要素 模糊匹配 用戶書寫 自動辨別 自動識別 拼寫 算法 錄入 兼容 街區 翻譯 輸出 書寫 風格 | ||
1.一種中英文地址自動檢測方法,其特征在于,包括如下步驟:
對中英文地址進行數據預處理;
采用切詞算法和分詞方法對經預處理后的中英文地址進行分詞和取詞性處理,得到若干詞組;
對詞組中的門牌號及街區號進行數字、字符校驗,對詞組中的地址要素詞進行拼音及英文校驗;
對經拼音和英文校驗后的詞組進行詞相似模糊匹配校驗;
輸出經自動檢測后的中英文地址及提示信息。
2.根據權利要求1所述的中英文地址自動檢測方法,其特征在于,所述方法還包括:得到若干詞組后、對詞組進行校驗前的區分詞組中的中文數字是否轉化為阿拉伯數字的步驟。
3.根據權利要求2所述的中英文地址自動檢測方法,其特征在于,采用結合上下文的二元語言模型來區分詞組中的中文數字是否轉化為阿拉伯數字。
4.根據權利要求1所述的中英文地址自動檢測方法,其特征在于:所述數據預處理包括中文編碼轉換和/或數據篩選和/或中文數字轉換阿拉伯數字。
5.根據權利要求1所述的中英文地址自動檢測方法,其特征在于:所述切詞算法包括DAG切詞算法、Viterbi切詞算法、HMM切詞算法中的一種或多種。
6.根據權利要求1所述的中英文地址自動檢測方法,其特征在于:所述分詞方法包括pattern split分詞方法。
7.根據權利要求1所述的中英文地址自動檢測方法,其特征在于:所述對詞組中的門牌號及街區號進行數字、字符校驗包括通過比較中英文地址中該部分的jaccard距離,校驗中文地址中出現的門牌號及街區號是否對應出現在英文地址中,并給出提示信息。
8.根據權利要求1所述的中英文地址自動檢測方法,其特征在于:所述對詞組中的地址要素詞進行拼音及英文校驗包括通過比較中英文地址中該部分的編輯距離,校驗中文地址中出現的地址要素詞是否對應出現在英文地址中,并給出提示信息。
9.根據權利要求1所述的中英文地址自動檢測方法,其特征在于,所述方法還包括:當對所述詞組中的地址要素詞進行拼音校驗失敗后,啟動本地自定義詞庫和/或在線字典對所述地址要素詞進行查詢,通過比較編輯距離再次進行校驗。
10.根據權利要求9所述的中英文地址自動檢測方法,其特征在于,所述方法還包括:當使用在線字典完成所述地址要素詞的查詢和再次校驗后,將所述地址要素詞的查詢和再次校驗信息存儲于所述本地自定義詞庫中。
11.根據權利要求1所述的中英文地址自動檢測方法,其特征在于:所述對經拼音和英文校驗后的詞組進行詞相似模糊匹配校驗包括通過比較jaccard距離及編輯距離對經拼音和英文校驗后的詞組進行詞相似模糊匹配校驗;當jaccard距離和編輯距離滿足特定閾值限制,則認為匹配成功,給出提示信息。
12.根據權利要求1所述的中英文地址自動檢測方法,其特征在于,所述方法還包括:得到若干詞組后、對詞組進行校驗前,根據自定義的停用詞庫去掉詞組中的停用詞的步驟。
13.一種中英文地址自動檢測系統,其特征在于,所述系統包括:
數據預處理模塊,用于對中英文地址進行數據預處理;
切詞分詞模塊,用于對經預處理后的中英文地址進行分詞和取詞性處理,得到若干詞組;
校驗模塊,用于對詞組中的門牌號及街區號進行數字、字符校驗,對詞組中的地址要素詞進行拼音及英文校驗;以及對經拼音和英文校驗后的詞組進行詞相似模糊匹配校驗;
輸出模塊,用于輸出經自動檢測后的中英文地址及提示信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于順豐科技有限公司,未經順豐科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810330903.4/1.html,轉載請聲明來源鉆瓜專利網。





