[發明專利]數據處理方法、裝置及其設備在審
| 申請號: | 202210375696.0 | 申請日: | 2022-04-11 |
| 公開(公告)號: | CN114722943A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 吳辰曄;張家聲 | 申請(專利權)人: | 深圳市人工智能與機器人研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王學強 |
| 地址: | 518129 廣東省深圳市龍崗區坂*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 及其 設備 | ||
本申請實施例公開了數據處理方法、裝置及其設備,用于對用戶高維數的負載數據進行降維,從而解決維度災難問題。本申請實施例方法包括:獲取目標用戶的初始負載數據,所述初始負載數據包括初始維數的負載數據;獲取由多個訓練樣本訓練得到的目標自編碼器,其中,所述目標自編碼器包括由N個卷積層和M個池化層構成的編碼器;每個所述訓練樣本包括初始維數的歷史負載數據和目標維數的歷史負載數據,且所述初始維數大于所述目標維數,所述目標自編碼器保存有所述初始維數降維至所述目標維度的降維規則;將所述初始負載數據輸入至所述目標自編碼器,以使所述目標自編碼器根據所述降維規則將所述初始維數的負載數據降維為所述目標維數的負載數據。
技術領域
本申請實施例涉及機器學習領域,尤其涉及數據處理方法、裝置及其設備。
背景技術
負載曲線聚類是能源研究許多領域的重要主題和有用工具,也是電力數據挖掘中的一個研究熱點。
在負載預測中,負載曲線聚類之前先對負載曲線進行標準化處理,建立一個能用于預測負載曲線的通用模型,從而實現負載預測。
但是由于負載曲線存在維度災難,所以很難建立一個能夠準確預測所有條件下的負載曲線的通用模型。例如K-means聚類等基于距離的方法在高維數據中表現出不穩定性。雖然主成分分析PCA等傳統降維方法可用于減輕維度災難,但這些方法只能生成線性映射,而不能解決復雜的問題。
發明內容
本申請實施例提供了數據處理方法、裝置及其設備,用于對用戶高維數的負載數據進行降維,從而解決維度災難問題。
本申請實施例提供的一種數據處理方法,包括:
獲取目標用戶的初始負載數據,所述初始負載數據包括初始維數的負載數據;
獲取由多個訓練樣本訓練得到的目標自編碼器,其中,所述目標自編碼器包括由N個卷積層和M個池化層構成的編碼器;每個所述訓練樣本包括初始維數的歷史負載數據和目標維數的歷史負載數據,且所述初始維數大于所述目標維數,所述目標自編碼器保存有所述初始維數降維至所述目標維度的降維規則;
將所述初始負載數據輸入至所述目標自編碼器,以使所述目標自編碼器根據所述降維規則將所述初始維數的負載數據降維為所述目標維數的負載數據。
可選的,所述目標自編碼器包括由2個卷積層和2個池化層構成的編碼器以及由2個卷積層和2個池化層構成的解碼器,其中,所述編碼器的第一卷積層卷積核長度為5,第一池化層步長為5;所述編碼器的第二卷積層卷積核長度為4,第一池化層步長為4;所述解碼器的第一卷積層卷積核長度為4,第一池化層步長為4;所述解碼器的第一卷積層卷積核長度為5,第一池化層步長為5。
可選的,在所述將所述初始負載數據輸入至所述目標自編碼器之前,所述方法還包括:
對所述初始負載數據進行歸一化處理;
所述對所述初始負載數據進行歸一化處理,具體包括:
從所述初始維數的初始負載數據中,確定最大的初始負載數據及最小的初始負載數據;
確定所述最大的初始負載數據與所述最小的初始負載數據的差值;
若所述差值等于0,則將預設歸一化參數設置為1;
若所述差值不等于0,則將所述預設歸一化參數設置為所述差值;
針對所述初始負載數據中的每個負載數據,根據公式x'=(x-xmin)/d計算所述負載數據歸一化后的負載數據;其中x為所述負載數據,x'為歸一化后的所述負載數據,d為所述預設歸一化參數。
可選的,在所述將所述初始負載數據輸入至所述目標自編碼器,以使所述目標自編碼器根據所述降維規則將所述初始維數的負載數據降維為所述目標維數的負載數據之后,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市人工智能與機器人研究院,未經深圳市人工智能與機器人研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210375696.0/2.html,轉載請聲明來源鉆瓜專利網。





