[發明專利]中文地址層級化解析與規范處理方法和系統有效
| 申請號: | 201811091100.4 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN109190997B | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 許諾;羅金滿;趙善龍 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司東莞供電局 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/06;G06F40/284;G06F16/215 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 蘇勝 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 地址 層級 化解 規范 處理 方法 系統 | ||
1.一種中文地址層級化解析與規范處理方法,其特征在于,包括:
獲取用電原始地址數據,并對所述用電原始地址數據進行初始化處理得到第一客戶用電地址數據;
利用文本特征的分詞方法對所述第一客戶用電地址數據進行層級化解析得到第二客戶用電地址數據;
將所述第二客戶用電地址數據與基礎地址字典庫進行清理循環得到清理成果;
對所述清理成果進行綜合評估以謹慎確認所述清理成果的準確性和有效性。
2.根據權利要求1所述的中文地址層級化解析與規范處理方法,其特征在于,所述文本特征的分詞方法通過在應用頻率DF的基礎上進行算法擴展得到,包括信息增益IG方法、互信息方法、x2統計CHI方法和期望交叉熵CE方法。
3.根據權利要求1所述的中文地址層級化解析與規范處理方法,其特征在于,所述將所述第二客戶用電地址數據與基礎地址字典庫進行清理循環得到清理成果包括:
將所有所述第二客戶用電地址數據均與基礎地址字典庫進行匹配;
判斷所述第二客戶用電地址數據匹配度是否滿足預設匹配度要求;
將匹配度滿足預設匹配度要求的所述第二客戶用電地址數據作為所述清理成果;
將匹配度不滿足所述預設匹配度要求的所述第二客戶用電地址數據放入下一個所述清理循環中,直至利用所述清理循環不能再獲得滿足所述預設匹配度要求的所述第二客戶用電地址數據。
4.根據權利要求1所述的中文地址層級化解析與規范處理方法,其特征在于,所述對所述清理成果進行綜合評估以謹慎確認所述清理成果的準確性和有效性包括:
利用綜合聚類算法、K鄰近算法和CART分類樹回歸算法構建相似度與一致性評估算法;
根據所述相似度與一致性評估算法對所述清理成果進行所述綜合評估。
5.根據權利要求2所述的中文地址層級化解析與規范處理方法,其特征在于,所述應用頻率DF為包含特征項的所述第一客戶用電地址數據的頻率。
6.根據權利要求5所述的中文地址層級化解析與規范處理方法,其特征在于,所述信息增益IG方法為通過統計所述特征項在所述第一客戶用電地址數據中出現或不出現的次數,預測所述第一客戶用電地址數據的類別的方法。
7.根據權利要求6所述的中文地址層級化解析與規范處理方法,其特征在于,所述互信息方法和所述x2統計CHI方法是通過計算所述特征項和所述類別間的相關性來提取互信息值的方法。
8.根據權利要求4所述的中文地址層級化解析與規范處理方法,其特征在于,所述CART分類樹回歸算法用于檢驗所述第二客戶用電地址數據的基尼不純度,所述基尼不純度計算了一個被隨機選中的所述第二客戶用電地址數據在子集中被分錯的可能性。
9.根據權利要求4所述的中文地址層級化解析與規范處理方法,其特征在于,所述K鄰近算法利用閔可夫斯基距離公式計算距離函數。
10.一種中文地址層級化解析與規范處理系統,其特征在于,包括:
獲取單元,用于獲取用電原始地址數據,并對所述用電原始地址數據進行初始化處理得到第一客戶用電地址數據;
層級化解析單元,用于利用文本特征的分詞方法對所述第一客戶用電地址數據進行層級化解析得到第二客戶用電地址數據;
清理循環單元,用于將所述第二客戶用電地址數據與基礎地址字典庫進行清理循環得到清理成果;
綜合評估單元,用于對所述清理成果進行綜合評估以謹慎確認所述清理成果的準確性和有效性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司東莞供電局,未經廣東電網有限責任公司;廣東電網有限責任公司東莞供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811091100.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





