[發明專利]一種機電設備及其控制方法、計算機可讀介質有效
| 申請號: | 201710592645.2 | 申請日: | 2017-07-19 |
| 公開(公告)號: | CN107272785B | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 孫一鳧;吳若颯;張豪;王宗祥 | 申請(專利權)人: | 北京上格云技術有限公司 |
| 主分類號: | G05D27/02 | 分類號: | G05D27/02 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100084 北京市海淀區農大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機電設備 及其 控制 方法 計算機 可讀 介質 | ||
本申請公開了機電設備及其控制方法、計算機可讀介質。機電設備的控制方法包括:設定目標參數及機電設備中的操控對象;基于目標參數和操控對象,構建初始價值網絡;根據機電設備的實際操控數據,對初始價值網絡進行優化,得到狀態動作價值網絡;通過對狀態動作價值網絡進行強化學習,控制操控對象執行特定動作。該控制方法可以提高機電設備的控制效率。
技術領域
本發明涉及設備控制技術領域,具體涉及一種機電設備及其控制方法、計算機可讀介質。
背景技術
在一些智能化建筑中,可以通過控制安裝在建筑中的機電系統的運行狀態,來實現為建筑用戶提供舒適環境的目的。通常可以采用傳統的PID(比例-積分-微分)或模糊控制等控制算法,對上述機電系統進行控制。針對具體的建筑或者房間,需要人為地調節上述控制算法中的大量控制參數,或者根據經驗給定控制參數的經驗值。在這種情況下,建筑機電系統的運行效果很大程度上取決于工程師經驗的多寡或系統運維管理的好壞。
發明內容
有鑒于此,本發明提供一種機電設備及其控制方法、計算機可讀介質,能夠將深度學習和強化學習相結合來控制機電設備的自動運行,提高了機電設備的控制效率。
第一方面,本申請提供了一種機電設備的控制方法,該方法包括:
設定目標參數及所述機電設備中的操控對象;
基于所述目標參數和所述操控對象,構建初始價值網絡;
根據所述機電設備的實際操控數據,對所述初始價值網絡進行優化,得到狀態動作價值網絡;
通過對所述狀態動作價值網絡進行強化學習,控制所述操控對象執行特定動作。
可選地,所述基于所述目標參數和所述操控對象,構建初始價值網絡包括:
從已有數據庫獲取歷史案例的案例信息、歷史操控數據和控制效果數據,其中,所述歷史案例與所述機電設備具有相同的目標參數和操控對象;
基于所述歷史操控數據,確定所述歷史案例對應的歷史價值網絡;
對所述歷史價值網絡、歷史操控數據、控制效果數據和所述案例信息進行深度學習,得到價值網絡的分類庫;
根據所述機電設備的操控對象和案例信息,從所述分類庫中確定出所述初始價值網絡。
可選地,所述案例信息包括:安裝有所述機電設備的建筑類型,系統類型和所在地點的氣候類型中的至少一項。
可選地,所述歷史操控數據包括:所述歷史案例在一實際運行時間段內的目標參數數值及對應的操控對象的動作空間;
所述基于所述歷史操控數據,確定所述歷史案例對應的歷史價值網絡包括:
對不同歷史案例的所述歷史操控數據分別應用貝爾曼方程,得到狀態動作價值矩陣中的Q值;
基于所述目標參數和所述操控對象,構建第一價值網絡;
訓練所述第一價值網絡擬和所述狀態動作價值矩陣中的Q值,得到每個所述歷史案例對應的歷史價值網絡。
可選地,所述基于所述目標參數和所述操控對象,構建初始價值網絡包括:
基于所述目標參數和所述操控對象,構建第一價值網絡;
將所述第一價值網絡作為初始價值網絡。
可選地,基于所述目標參數和所述操控對象,構建第一價值網絡包括:
將所述目標參數的個數作為神經網絡的輸入量個數;
將所述操控對象能夠對應的動作空間的個數作為所述神經網絡的輸出量個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京上格云技術有限公司,未經北京上格云技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710592645.2/2.html,轉載請聲明來源鉆瓜專利網。





