[發明專利]基于Getis-Ord Gi*的用電量多元空間聚類方法在審
| 申請號: | 201810278046.8 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN108764266A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 周明磊;徐志強;孫晨;王尚俊;李志偉;孫曉超;虞正堯;卲炎君 | 申請(專利權)人: | 浙江華云信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 浙江翔隆專利事務所(普通合伙) 33206 | 代理人: | 王曉燕 |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 依賴關系 集聚 多元空間 客觀反映 用電區域 多變量 用電量 冷點 矩陣 自相關分析 方案解決 聚類結果 空間矩陣 空間聚類 空間元素 屬性變量 所在區域 重新構建 空間權 輪廓線 構建 轉換 統計 | ||
1.基于Getis-Ord Gi*的用電量多元空間聚類方法,其特征在于包括以下步驟:
1)獲取數據;
數據來源為電力行業數據,包括農、林、牧、漁業,工業,建筑業,交通運輸、倉儲和郵政業,信息傳輸、計算機服務和軟件業,商業、住宿和餐飲業,金融、房地產、商務及居民服務業,公共事業及管理組織的電力數據;
2)對所在區域構建空間依賴關系,確定空間權重;
通過判斷是否有存在公共邊界或頂點來確定空間權重,當地區為島嶼時,將其分配給陸地的地區,相應陸地的地區對稱性地增加該島嶼,即認為相鄰;空間權重確定后,生成的空間權重為0-1的矩陣,并通過rook contiquity轉換為距離權重以用于后續計算;
3)對每個變量進行空間自相關分析確定其存在空間依賴關系;
4)將屬性變量轉換為帶有空間元素的Gi*統計變量,對Gi*做最小優估計的z轉換形式;公式如下:
其中,
xj是要素j的屬性值,xi是要素i的屬性值,n為區域單元數,x為用電量,wij為空間權重;
通過Z(Gi*)重新構建多變量空間矩陣;
5)對多變量空間矩陣采用輪廓線系數方法來確定最優聚類數,然后采用k-means聚類方法來進行聚類;
6)可視化聚類地圖,以識別哪些多產業用電區域為熱點區域,哪些區域為冷點區域。
2.根據權利要求1所述的基于Getis-Ord Gi*的用電量多元空間聚類方法,其特征在于:在步驟5)中,包括以下步驟:
501)給定一個空間權重W,為每個變量計算標準的局部Getis-Ord統計指數計算第i個單元(i=1,…,n)中第j個變量(j=1,…,p)的值將這些值組合成(n×p)維度的矩陣Z,其中Z的每個列代表其中一個變量的局部空間自相關模式,Z的每一行描述了每一個局部單元的聚類屬性構成;
502)將k均值聚類算法應用于這組空間結構化的變量矩陣Z,依據既包含空間屬性又包含位置屬性的多元空間屬性來聚類觀察單元;k均值聚類是將一組數據劃分為預先設定好的k個簇,簇的質心是k均值聚類的關鍵;通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果;對于選擇好k個質心后,接下來將數據中的每個點與距離它最近的質心聯系起來,如果無數據點與質心相連,則質心計算結束,否則,將第一步生成的圍繞質心的樣本點求均值,作為新的質心,再計算與其最近的樣本點的聚集情況,以此類推迭代,直到質心點不再發生變動為止,質心計算結束;
503)最優主題數的確定;k均值聚類的目標是最小化每一個類內部的差異,最大化類之間的差異;聚類最優數目采用silhouette方法來完成最優聚類數目的尋找。
3.根據權利要求2所述的基于Getis-Ord Gi*的用電量多元空間聚類方法,其特征在于:步驟5)中還包括步驟:
504)方差擬合優度比較兩種聚類效果;
選擇方差擬合優度GVF來評測空間聚類方法的效度,遵循聚類內部要素要越具相似性且聚類之間要越具差異性的原則,并將其與非空間的k-means聚類進行比較;方差擬合優度是評價聚類精度的有效方法,公式如下:
其中zi,i=1,...,N是觀察值,且N為區域總數目;k為聚類數目,是聚類j中的觀察值的均值,Nj是聚類j中的區域數目;反映了聚類之間的差異性,反映了聚類內部的要素的相似性;GVF越接近于1說明聚類內容越相近;判斷GVF計算值是否超過設定的閾值,若是,則采用上述聚類方法,否則,重新選擇聚類方式。
4.根據權利要求3所述的基于Getis-Ord Gi*的用電量多元空間聚類方法,其特征在于:在步驟503)中,silhouette方法中的輪廓線系數s(i)的計算公式如下:
其中,a(i)為實體i與和它同屬于同一個聚類中其他實體的平均距離;b(i)是實體i與其他聚類中所有實體平均距離的最小值;輪廓線系數的取值范圍為–1到1,值越大表示聚類效果越好,那個最大值對應的聚類數目就是最佳聚類數目;如果某實體的輪廓線系數為0,則表明該實體可能已經被分配到了其他類別中;如果輪廓線系數接近于-1,則意味著這個實體被錯誤分類了;如果所有的輪廓線系數都接近于1,那么意味著全部實體都得到很好的聚類;為了避免局部最優解,令聚類數目k從2到8,在每個k值上重復運行30次K-means,并計算當前k的平均輪廓系數,最后選取輪廓系數最大的值對應的k作為最終的聚類數目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江華云信息科技有限公司,未經浙江華云信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810278046.8/1.html,轉載請聲明來源鉆瓜專利網。





