[發明專利]一種地址數據結構化與規范化的清理方法在審
| 申請號: | 201811543929.3 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109614396A | 公開(公告)日: | 2019-04-12 |
| 發明(設計)人: | 宋才華;鄭愛武;藍源娟;王永才;吳麗賢 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司佛山供電局 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06Q50/06 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解析 地址數據結構 地址數據 基礎地址 原始地址 層級化 匹配度 字典庫 初始化處理 一致性評估 準確度 地址判斷 發送消息 客戶用電 清理循環 區域用戶 數據返回 用電負荷 綜合評估 規范化 層次化 區域性 相似度 準確率 報障 算法 匹配 檢修 停電 文本 應急 響應 應用 | ||
1.一種地址數據結構化與規范化的清理方法,其特征在于,所述方法包括以下步驟:
S1:獲取供電企業存量客戶用電原始地址數據,并進行初始化處理;
S2:對初始化后的供電企業存量客戶用電原始地址數據進行層次化解析;
S3:對層級化解析的地址數據與基礎地址字典庫進行匹配;
S4:根據層級化解析的地址數據與基礎地址字典庫之間的匹配度是否滿足要求進行判斷;
匹配度滿足要求的層級化解析的地址數據作為清理成果,并添加進基礎地址字典庫;
匹配度不滿足要求的數據返回S2進行下一個清理循環中再次解析,直至某個清理循環不能再獲得滿足匹配度要求的地址數據為止;
S5:對相似度與一致性進行評估,并對清理成果進行綜合評估。
2.根據權利要求1所述的地址數據結構化與規范化的清理方法,其特征在于,所述步驟S2的解析方法為基于文本特征的分詞方法。
3.根據權利要求2所述的地址數據結構化與規范化的清理方法,其特征在于,基于文本特征的分詞方法為:在“基于統計的分詞方法”的基礎上,進行算法擴展,在應用頻率之外,同時增加了信息增益、互信息、χ2統計、期望交叉熵四種方法。
4.根據權利要求1所述的地址數據結構化與規范化的清理方法,其特征在于,步驟S5中相似度與一致性評估的算法通過綜合K近鄰算法、綜合聚類算法、CART分類樹回歸算法來構建。
5.根據權利要求3所述的地址數據結構化與規范化的清理方法,其特征在于,信息增益為通過統計某個特征項在用電地址中出現或不出現的次數來預測用電地址的類別,信息增益的計算公式如下:
其中Pr(ci)表示特征在樣本中出現的概率,Pr(ci|t)表示特征出現的情況下每個類別的概率分別是多少,m表示類別的個數。
6.根據權利要求3所述的地址數據結構化與規范化的清理方法,其特征在于,互信息的互信息值,通過計算特征t和類別c間的相關性來完成提取;計算公式為:
其中:A為t和c同時出現的次數;B為t出現而c沒有出現的次數;C為c出現而t沒有出現的次數;N為所有用電地址數;如果t和c不相關,則I(t,c)值為0。
7.根據權利要求3所述的地址數據結構化與規范化的清理方法,其特征在于,χ2統計的計算公式可表達為:
其中,t表示特征項和c表示類別,A為t和c同時出現的次數;B為t出現而c沒有出現的次數;C為c出現而t沒有出現的次數;N為所有用電地址數。
8.根據權利要求3所述的地址數據結構化與規范化的清理方法,其特征在于,期望交叉嫡的計算公式如下,
其中Pr(ci)表示特征在樣本中出現的概率,Pr(ci|t)表示特征出現的情況下每個類別的概率分別是多少,m表示類別的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司佛山供電局,未經廣東電網有限責任公司;廣東電網有限責任公司佛山供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811543929.3/1.html,轉載請聲明來源鉆瓜專利網。





