[發(fā)明專利]一種基于最大相關(guān)最小冗余判據(jù)的用戶用電特征選擇方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010573150.7 | 申請(qǐng)日: | 2020-06-22 |
| 公開(kāi)(公告)號(hào): | CN111860600A | 公開(kāi)(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計(jì))人: | 許洪強(qiáng);趙晉泉;夏雪;蘇大威 | 申請(qǐng)(專利權(quán))人: | 國(guó)家電網(wǎng)有限公司;河海大學(xué);國(guó)網(wǎng)江蘇省電力有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06Q10/04;G06Q10/06;G06Q50/06 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 張惠玲 |
| 地址: | 100031 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 最大 相關(guān) 最小 冗余 判據(jù) 用戶 用電 特征 選擇 方法 | ||
1.一種基于最大相關(guān)最小冗余判據(jù)的電力用戶用電特征選擇方法,其包括以下步驟:
步驟A、對(duì)負(fù)荷數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理主要包括缺失數(shù)據(jù)與失真數(shù)據(jù)的填補(bǔ)與剔除以及用電數(shù)據(jù)歸一化處理;
步驟B、綜合計(jì)算預(yù)處理后的負(fù)荷數(shù)據(jù)的簇內(nèi)集聚度、類間離散度,構(gòu)造聚合回報(bào)指標(biāo),選取合適k值,并在此基礎(chǔ)上完成k-means聚類;
步驟C、結(jié)合有效性與冗余性指標(biāo),基于最大相關(guān)最小冗余判據(jù),采用遍歷法提取優(yōu)質(zhì)用電特征集。
2.如權(quán)利要求1所述的基于最大相關(guān)最小冗余判據(jù)的電力用戶用電特征選擇方法,其特征在于,步驟A所述對(duì)負(fù)荷數(shù)據(jù)進(jìn)行預(yù)處理,具體按照以下方法:
步驟A1、濾除樣本集中的不合理數(shù)據(jù),包括有部分缺失、數(shù)據(jù)過(guò)大以及日用電均為零的用戶數(shù)據(jù);
步驟A2、將濾除后得到的樣本數(shù)據(jù)進(jìn)行歸一化處理,其表達(dá)式如下:
式中:xmtn為第m個(gè)用戶第t時(shí)刻的歸一化值;xmt為第m個(gè)用戶第t時(shí)刻的用電量;xmmin和xmmax分別為第m個(gè)用戶日用電的最大值和最小值。
3.如權(quán)利要求1所述的基于最大相關(guān)最小冗余判據(jù)的電力用戶用電特征選擇方法,其特征在于,步驟B所述綜合計(jì)算簇內(nèi)集聚度、類間離散度,構(gòu)造聚合回報(bào)指標(biāo),選取合適k值,并在此基礎(chǔ)上完成k-means聚類,具體按照以下方法:
步驟B1、誤差平方和(sum of squared error,SSE)的定義如下:
式中,Ci為第i個(gè)類別;x為Ci中的樣本點(diǎn);mi為Ci的質(zhì)心,即所有樣本的均值;
當(dāng)k值小于最佳聚類數(shù)時(shí),k值的增加會(huì)大幅增加每個(gè)簇的集聚程度,故SSE值的下降幅度會(huì)陡增,而當(dāng)k值達(dá)到最佳聚類數(shù)時(shí),再增加k值所得到的集聚程度回報(bào)會(huì)迅速變小,SSE值下降幅度會(huì)驟減;
步驟B2、為量化集聚程度回報(bào)大小,定義誤差降低系數(shù)βSSE為:
步驟B3、針對(duì)樣本點(diǎn)xi,假設(shè)其被聚類到簇A,則其輪廓系數(shù)如下:
式中,a(xi)為樣本xi到簇A其他樣本點(diǎn)的平均歐式距離;對(duì)于簇B而言,令:D(xi,B)為樣本xi與簇B中所有樣本的平均歐氏距離,則即為樣本xi到其他簇的平均距離的最小值;
求出所有樣本的輪廓系數(shù)后取平均值即可得到樣本集的平均輪廓系數(shù):
式中,為平均輪廓系數(shù);C為總樣本集;n為總樣本數(shù);
步驟B4、誤差降低系數(shù)反映的是簇內(nèi)集聚度,平均輪廓系數(shù)則體現(xiàn)了簇間分離度,因此,綜合兩個(gè)系數(shù)定義了聚合回報(bào)指標(biāo)Re:
給定一個(gè)最大聚類數(shù)kmax,取[2,kmax]的范圍內(nèi)每個(gè)整數(shù)作為聚類數(shù),分別進(jìn)行一次聚類,當(dāng)聚合回報(bào)指標(biāo)值最大時(shí),聚類結(jié)果最優(yōu),通過(guò)定義聚合回報(bào)指標(biāo),實(shí)現(xiàn)最佳聚類數(shù)k值的自動(dòng)確定;
確定最佳k值后,采用k-means算法對(duì)樣本進(jìn)行聚類分析。
4.如權(quán)利要求1所述的基于最大相關(guān)最小冗余判據(jù)的電力用戶用電特征選擇方法,其特征在于,步驟C所述結(jié)合有效性與冗余性指標(biāo),基于最大相關(guān)最小冗余判據(jù),采用遍歷法提取優(yōu)質(zhì)用電特征集的步驟中,具體按照以下方法:
步驟C1、構(gòu)建初始特征集;
采用源于用電曲線的用電特征來(lái)表征用戶用電行為;用電特征分為兩大類:一類是直觀描述型,包括日用電量,日最大負(fù)荷、日最小負(fù)荷、日平均負(fù)荷,日峰谷差;另一類是比值描述型,包括谷電系數(shù),日負(fù)荷率、日峰谷差率,峰時(shí)耗電率,平時(shí)段用電百分比;原始特征集由上述兩類特征組合構(gòu)成,記為T={t1,t2,…,tN};
步驟C2、對(duì)用電特征進(jìn)行變量域離散化處理;
把各用電特征的數(shù)值序列轉(zhuǎn)化為概率分布區(qū)間,對(duì)特征集進(jìn)行歸一化處理,將用電特征數(shù)值序列區(qū)間均勻離散,得到用電特征數(shù)值序列的概率分布,繼而完成對(duì)各個(gè)用電特征與用戶類別的互信息計(jì)算;
步驟C3、以互信息為基礎(chǔ)構(gòu)建最大相關(guān)性指標(biāo);
第i個(gè)用電特征ti的熵的計(jì)算公式為:
式中,Ni為用電特征ti的區(qū)間數(shù)量;Mu為用電特征ti落在第u個(gè)區(qū)間的樣本個(gè)數(shù);M為總樣本數(shù);底數(shù)取2;
用戶類別d的信息熵為:
式中,Nd為用戶總類別數(shù);Mv為屬于第v個(gè)類別的樣本個(gè)數(shù);底數(shù)取2;
第i個(gè)用電特征ti與用戶類別d的聯(lián)合信息熵為:
式中,Muv為ti落在第u個(gè)區(qū)間且用戶類別d恰好為v的樣本個(gè)數(shù);底數(shù)取2;
第i個(gè)用電特征ti與用戶類別d的互信息定義為:
I(ti;d)=H(ti)+H(d)-H(ti,d)
根據(jù)上式分別求出每個(gè)用電特征與用戶類別間的互信息;
最大相關(guān)性指標(biāo)D(S,d)為:
式中,S與NS為最優(yōu)特征集及其所包含用電特征的個(gè)數(shù);I(ti;d)為S中第i個(gè)用電特征和用戶類別d之間的互信息值;
步驟C4、以相關(guān)系數(shù)為基礎(chǔ)構(gòu)建最小冗余性指標(biāo);
兩個(gè)用電特征間信息的冗余性用相關(guān)系數(shù)指標(biāo)來(lái)衡量,其公式如下:
式中,ti和tj分別為最優(yōu)特征集S中第i和第j個(gè)用電特征;cov(ti,tj)為兩個(gè)用電特征的協(xié)方差;和分別為用電特征ti和tj的標(biāo)準(zhǔn)差;為兩個(gè)用電特征的相關(guān)系數(shù),取值范圍為[-1,1],絕對(duì)值越接近于1,相關(guān)性越大,越接近0,相關(guān)性越小;
最小冗余性指標(biāo)R(S)為:
步驟C5、綜合兩個(gè)指標(biāo)得到最大相關(guān)最小冗余準(zhǔn)則;
相應(yīng)的公式如下:
求解滿足最大相關(guān)最小冗余準(zhǔn)則的特征集S即為最優(yōu)特征集;
步驟C6、采用遍歷法求解最大相關(guān)最小冗余準(zhǔn)則,得到最優(yōu)特征集;
令fi為用電特征ti的集合隸屬度指示函數(shù),對(duì)其進(jìn)行0-1編碼,fi=1表示該用電特征存在于S中,fi=0則表示在S中不存在標(biāo)簽ti;為簡(jiǎn)化公式表達(dá),將互信息與相關(guān)系數(shù)分別用ai與bij表示,即:
將上式代入后得到:
遍歷f=(0,0,…0)至f=(1,1,…,1)得到使mRMR最大的f向量,解碼后得到最優(yōu)特征集S。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)家電網(wǎng)有限公司;河海大學(xué);國(guó)網(wǎng)江蘇省電力有限公司,未經(jīng)國(guó)家電網(wǎng)有限公司;河海大學(xué);國(guó)網(wǎng)江蘇省電力有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010573150.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





