[發明專利]識別層級地址的方法和裝置在審
| 申請號: | 201811469455.2 | 申請日: | 2018-11-28 |
| 公開(公告)號: | CN111325022A | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 王梓晨;李司鈐 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/154;G06F16/35 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;張效榮 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 層級 地址 方法 裝置 | ||
1.一種識別層級地址的方法,其特征在于,包括:
獲取目標地址對應的目標城市和所述目標地址的詳細地址信息;
根據所述目標城市,確定與所述目標地址對應的城市地址模型;
利用所述城市地址模型對所述詳細地址信息進行處理,識別所述目標地址的層級地址信息。
2.根據權利要求1所述的方法,其特征在于,在確定與所述目標地址對應的城市地址模型之前,所述方法還包括:
從歷史地址庫中,提取目標城市的歷史地址和樣本地址;
根據所述歷史地址,生成所述目標城市的地址詞典和向量詞匯表;
根據所述地址詞典、所述向量詞匯表和所述樣本地址,構建所述目標城市的模型樣本;
基于卷積神經網絡算法對所述模型樣本進行分類訓練,生成城市地址模型,所述城市地址模型的分類參數為末級行政區劃編號。
3.根據權利要求2所述的方法,其特征在于,所述根據所述歷史地址,生成所述目標城市的地址詞典和向量詞匯表,包括:
根據自定義分詞規則對所述歷史地址進行分詞處理,生成所述目標城市的地址詞典;
結合所述地址詞典和所述自定義分詞規則,對所述歷史地址進行分詞處理,獲取第三分詞地址;
利用詞語向量轉換模型,對所述第三分詞地址中的文本詞語進行向量轉換,以生成所述目標城市的向量詞匯表。
4.根據權利要求2所述的方法,其特征在于,所述根據所述地址詞典、所述向量詞匯表和所述樣本地址,構建所述目標城市的模型樣本,包括:
結合所述地址詞典和自定義分詞規則,對所述樣本地址進行分詞處理,獲取第四分詞地址;
按照預設比例刪除所述第四分詞地址中的地址層級,得到第五分詞地址;
利用所述向量詞匯表對所述第五分詞地址進行詞語向量轉換,生成所述樣本地址對應的詞語向量地址;
根據所述第五分詞地址和所述第五分詞地址的末級行政區劃編號,構建所述目標城市的模型樣本。
5.根據權利要求3或4所述的方法,其特征在于,所述自定義分詞規則包括:利用正則規則進行初次分詞,然后基于有向無環圖和隱馬爾可夫模型,對初次分詞結果進行再次分詞。
6.根據權利要求2所述的方法,其特征在于,在提取目標城市的歷史地址和樣本地址之后,所述方法還包括:
根據地址層級關系樹,生成所述目標城市的末級行政區劃列表;
針對所述樣本地址中的任意一條樣本地址,判斷該條樣本地址的末級行政區劃編號是否在所述末級行政區劃列表中,若否,則將該條樣本地址過濾掉。
7.根據權利要求1所述的方法,其特征在于,在識別所述目標地址的層級地址信息之后,所述方法還包括:
獲取所述目標地址的原有層級地址信息;
判斷所述原有層級地址信息與所述層級地址信息是否一致,若否,則發送變更原有層級地址信息的請求。
8.根據權利要求1所述的方法,其特征在于,在識別所述目標地址的層級地址信息之后,所述方法還包括:
將所述目標地址轉換成特定格式的地址,所述特定格式與所述層級地址信息相關。
9.一種識別層級地址的裝置,其特征在于,包括:
獲取模塊,用于獲取目標地址對應的目標城市和所述目標地址的詳細地址信息;
確定模塊,用于根據所述目標城市,確定與所述目標地址對應的城市地址模型;
識別模塊,用于利用所述城市地址模型對所述詳細地址信息進行處理,識別所述目標地址的層級地址信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811469455.2/1.html,轉載請聲明來源鉆瓜專利網。





