[發明專利]更新Q值矩陣的方法、存儲介質和終端設備有效
| 申請號: | 201710591451.0 | 申請日: | 2017-07-19 |
| 公開(公告)號: | CN107367929B | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 孫一鳧;吳若颯;張豪;王宗祥 | 申請(專利權)人: | 北京上格云技術有限公司 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02;G06N3/08 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100084 北京市海淀區農大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 更新 矩陣 方法 存儲 介質 終端設備 | ||
1.一種更新Q值矩陣的方法,其特征在于,所述方法包括:
獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;
將所述第一狀態輸入神經網絡,預測在所述第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在所述Q值矩陣中對應的第二狀態;
根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值;
其中,所述神經網絡通過以歷史狀態以及對應執行的動作作為訓練數據訓練獲得,所述神經網絡的訓練步驟包括:
將當前時間點t以及上一時間點t-1的狀態和動作作為所述神經網絡的輸入,所述神經網絡的輸出為下一時間點t+1的預測狀態;
根據所述預測狀態與下一時間點t+1的實際狀態之間的誤差來調整所述神經網絡的權重矩陣和偏置;
根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值包括:
根據貝爾曼方程更新所述第一狀態下的所有動作所對應的Q值,
其中,Qt(xt,uk)代表t時間點的第一狀態xt下的執行動作uk所對應的Q值;u'代表第二狀態xt+1,k下的動作空間,Q(xt+1,k,u')代表t+1時間點執行動作空間u'中第k個動作所對應的Q值;rt+1代表第二狀態xt+1,k的回報值;γ代表折扣因子;α代表學習率;
獲取當前傳感器數據并確定在所述Q值矩陣中對應的當前狀態;
從所述Q值矩陣中確定所述當前狀態下的所有動作中Q值最大的動作并執行。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當所述當前傳感器數據的積累數量達到預設門限時,根據積累的當前傳感器數據更新所述Q值矩陣。
3.根據權利要求1所述的方法,其特征在于,所述狀態包括多個變量,所述Q值矩陣的狀態空間通過窮舉所述多個變量的所有組合來定義;和/或,
所述動作包括多個被控制量,所述Q值矩陣的動作空間通過窮舉所述多個被控制量的所有組合來定義。
4.一種終端設備,其特征在于,包括:
處理器;
用于存儲處理器可執行指令的存儲器;
其中,所述處理器被配置為:獲取傳感器數據并確定在Q值矩陣中對應的第一狀態;
將所述第一狀態輸入神經網絡,預測在所述第一狀態下遍歷所述Q值矩陣中所有動作之后分別得到的在所述Q值矩陣中對應的第二狀態;
根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值;
其中,所述神經網絡通過以歷史狀態以及對應執行的動作作為訓練數據訓練獲得,所述神經網絡的訓練步驟包括:
將當前時間點t以及上一時間點t-1的狀態和動作作為所述神經網絡的輸入,所述神經網絡的輸出為下一時間點t+1的預測狀態;
根據所述預測狀態與下一時間點t+1的實際狀態之間的誤差來調整所述神經網絡的權重矩陣和偏置;
根據所述第一狀態和第二狀態下所有動作對應的Q值,按照預設算法更新所述第一狀態下的所有動作所對應的Q值包括:
根據貝爾曼方程更新所述第一狀態下的所有動作所對應的Q值,
其中,Qt(xt,uk)代表t時間點的第一狀態xt下的執行動作uk所對應的Q值;u'代表第二狀態xt+1,k下的動作空間,Q(xt+1,k,u')代表t+1時間點執行動作空間u'中第k個動作所對應的Q值;rt+1代表第二狀態xt+1,k的回報值;γ代表折扣因子;α代表學習率。
5.一種計算機可讀存儲介質,其上存儲有計算機指令,其特征在于,該指令被處理器執行時實現權利要求1-3中任一項所述更新Q值矩陣的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京上格云技術有限公司,未經北京上格云技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710591451.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種立體綠化墻灌溉系統
- 下一篇:一種全自動懶人花盆架





