[發明專利]一種解析組織機構名的方法和裝置有效
| 申請號: | 201410079740.9 | 申請日: | 2014-03-06 |
| 公開(公告)號: | CN104899213B | 公開(公告)日: | 2018-06-05 |
| 發明(設計)人: | 高陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 倪志華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 組織機構 匹配 方法和裝置 解析 名稱提取 預先建立 地址庫 正整數 字符串 預設 記錄 刪除 | ||
本發明提供了一種解析組織機構名的方法和裝置,針對組織機構名執行:S1、提取前N1個字符,N1為預設的正整數;S2、將當前提取的字符與預先建立的地址MAP中的key進行匹配,如果存在匹配的key,則執行S3;如果不存在匹配的key,則執行S4;S3、記錄MAP中匹配到的key所對應的value中的地區名稱,將該地區名稱從組織機構名中刪除后,針對剩余的字符串轉至執行S1;S4、將當前已記錄的組織機構名中的地區名稱構成組織機構名的地區部分,組織機構名的其他部分作為機構名部分;其中,MAP中的key是從地址庫中地區名稱提取的前N1個字符,value包含對應key所來源的地區名稱。本發明能夠自動將組織機構名拆分為地區部分和機構名部分。
【技術領域】
本發明涉及計算機應用技術領域,特別涉及一種解析組織機構名的方法和裝置。
【背景技術】
隨著大數據時代的來臨,越來越多的企業面臨海量數據的利用,其中對于諸如電子商務、物流等類型企業累積了大量的組織機構庫資源,但組織機構庫中存在的海量數據因其來源的不同往往存在對同一組織機構名的不同表達,這就需要對組織機構名進行判重的處理,或者組織機構庫中存在大量錯誤的組織機構名,這就需要對組織機構名進行錯誤識別的處理,等等。但無論在對組織機構名進行判重和錯誤識別等處理,都需要對組織機構名進行拆分,拆分為地區部分和機構名部分。
【發明內容】
有鑒于此,本發明提供了一種解析組織機構名的方法和裝置,以便于自動將組織機構名拆分為地區部分和機構名部分。
具體技術方案如下:
本發明提供了一種解析組織機構名的方法,針對組織機構名執行:
S1、提取前N1個字符,所述N1為預設的正整數;
S2、將當前提取的字符與預先建立的地址MAP中的key進行匹配,如果存在匹配的key,則執行S3;如果不存在匹配的key,則執行S4;
S3、記錄所述MAP中匹配到的key所對應的value中的地區名稱,將該地區名稱從所述組織機構名中刪除后,針對剩余的字符串轉至執行所述S1;
S4、將當前已記錄的所述組織機構名中的地區名稱構成所述組織機構名的地區部分,所述組織機構名的其他部分作為機構名部分;
其中,所述MAP中的key是從地址庫中地區名稱提取的前N1個字符,value包含對應key所來源的地區名稱。
根據本發明一優選實施方式,預先建立所述MAP的過程包括對地址庫中的各地區名稱分別執行:
清除地區名稱中的地區公共關鍵詞;
提取剩余的字符的前N1個字符作為key,將該地區名稱包含在該key對應的value中。
根據本發明一優選實施方式,預先建立所述MAP的過程包括對地址庫中的各地區名稱分別執行:
清除地區名稱中的地區公共關鍵詞;
若該地區名稱中剩余的字符個數小于或等于所述N1,則直接將該剩余的字符作為key,將該地區名稱包含在該key對應的value中;
若該地區名稱中剩余的字符個數大于所述N1,則提取該剩余的字符的前N2個字符作為key,將該地區名稱包含在該key對應的value中,所述N2為預設的正整數且大于所述N1。
根據本發明一優選實施方式,在所述S1中提取前N1個字符之前還包括:
提取前N2個字符,將當前提取的字符與所述MAP中的key進行匹配,如果存在匹配的key,則轉至執行所述S3,如果不存在匹配的key,則繼續執行所述提取前N1個字符。
根據本發明一優選實施方式,所述N1為2,所述N2為3。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410079740.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種放大式手機觸摸屏
- 下一篇:一種基于GSM短信通信的清潔能源信息采集系統





