[發明專利]中英文地址自動檢測方法及系統在審
| 申請號: | 201810330903.4 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN110377897A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 鐘萍 | 申請(專利權)人: | 順豐科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京瑞盟知識產權代理有限公司 11300 | 代理人: | 劉昕 |
| 地址: | 518000 廣東省深圳市南山區學府路(以南)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中英文 校驗 自動檢測 詞組 提示信息 分詞 英文 拼音 地址對應關系 預處理 數據預處理 詞性處理 地址要素 模糊匹配 用戶書寫 自動辨別 自動識別 拼寫 算法 錄入 兼容 街區 翻譯 輸出 書寫 風格 | ||
本發明涉及一種中英文地址自動檢測方法及系統。所述方法包括:對中英文地址進行數據預處理;采用切詞算法和分詞方法對經預處理后的中英文地址進行分詞和取詞性處理,得到若干詞組;對詞組中的門牌號及街區號進行數字、字符校驗,對詞組中的地址要素詞進行拼音及英文校驗;對經拼音和英文校驗后的詞組進行詞相似模糊匹配校驗;輸出經自動檢測后的中英文地址及提示信息。所述方法可實現通關件中英文地址對應關系的自動識別與校驗;可以自動檢測中英文地址是否對應,可兼容不同用戶風格各異的英文地址書寫習慣以及翻譯風格,還可以自動辨別用戶可能存在的拼寫錯誤、或因為用戶書寫潦草而引起的系統錄入時的辨認錯誤,給出相應提示信息等。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種中英文地址自動檢測方法及系統。
背景技術
隨著電子商務及快遞物流產業的發展,通關快件的數量規模在不斷擴大,與此同時產生了海量的地址數據。通關件的收件地址包括英文地址及中文地址,英文地址必須與中文地址一一對應。
目前的通關地址處理模式為,關務人員對大量的中英文地址逐條進行人工審查,判斷收件中英文地址是否對應正確。該處理模式對審核人員的英文水平,拼音水平,地址信息儲備能力都有較高的要求。此外,不同用戶的英文地址書寫順序、縮寫習慣、翻譯水平、字跡工整程度也各不相同,進一步增加了人工審查的難度。而嘗試使用google翻譯,有道翻譯,百度翻譯等方式直接對通關件地址翻譯效果也很不理想,仍需大量人工辨識、理解、糾錯工作。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
鑒于上述問題,本發明的一個目的在于提供一種中英文地址自動檢測方法。該方法可實現通關件中英文地址對應關系的自動識別與校驗,大量減輕或替代人工審核標注工作。
本發明的第二個目的在于提供一種中英文地址自動檢測系統。該系統在運行時能夠實現如上所述方法的步驟。
本發明的第三個目的在于提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現如上方法所述的步驟。
本發明的第四個目的在于提供一種設備,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上方法所述的步驟。
為了實現上述第一個目的,本發明采用如下技術方案:
一種中英文地址自動檢測方法,包括如下步驟:
對中英文地址進行數據預處理;
采用切詞算法和分詞方法對經預處理后的中英文地址進行分詞和取詞性處理,得到若干詞組;
對詞組中的門牌號及街區號進行數字、字符校驗,對詞組中的地址要素詞進行拼音及英文校驗;
對經拼音和英文校驗后的詞組進行詞相似模糊匹配校驗;
輸出經自動檢測后的中英文地址及提示信息。
優選地,所述方法還包括:得到若干詞組后、對詞組進行校驗前的區分詞組中的中文數字是否轉化為阿拉伯數字的步驟。
優選地,采用結合上下文的二元語言模型來區分詞組中的中文數字是否轉化為阿拉伯數字。
優選地,所述數據預處理包括中文編碼轉換和/或數據篩選和/或中文數字轉換阿拉伯數字。
優選地,所述切詞算法包括DAG切詞算法、Viterbi切詞算法、HMM切詞算法中的一種或多種。
優選地,所述分詞方法包括pattern split分詞方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于順豐科技有限公司,未經順豐科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810330903.4/2.html,轉載請聲明來源鉆瓜專利網。





