[發明專利]基于強化學習的智能決策方法及系統有效
| 申請號: | 202110403205.4 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113204916B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 李啟娟 | 申請(專利權)人: | 特斯聯科技集團有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京春江專利商標代理事務所(普通合伙) 11835 | 代理人: | 向志杰 |
| 地址: | 100027 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 智能 決策 方法 系統 | ||
1.一種基于強化學習的智能決策系統,其特征在于,所述系統包括:
網絡建立模塊,用于建立卷積神經網絡,所述卷積神經網絡的輸入層的設定數量的多個輸入數據為同一超市內相等面積的設定數量的多個分區域分別部署的多個安保人員數量,所述卷積神經網絡的輸出層的單個輸出數據為所述超市在完成上述部署后預設時間長度范圍內的丟失商品的數量;
畫面捕獲模塊,與數據采集模塊連接,用于在所述同一超市內相等面積的設定數量的多個分區域內分別執行實時畫面采集,以獲得多個實時捕獲畫面,并將所述多個實時捕獲畫面發送給所述數據采集模塊以用于識別所述多個分區域在某一個歷史時刻分別部署的多個安保人員數量;
數據采集模塊,用于采集固定數量的多份學習數據,每一份學習數據為所述同一超市內相等面積的設定數量的多個分區域在某一個歷史時刻分別部署的多個安保人員數量,所述卷積神經網絡的輸出層的單個輸出數據為所述歷史時刻后預設時間長度范圍內的丟失商品的數量;
強化學習模塊,用于將每一份學習數據對應的丟失商品的數量的倒數作為對所述卷積神經網絡進行強化學習的獎勵信號對所述卷積神經網絡進行強化學習操作,以分時逐份完成所述固定數量的多份學習數據對所述卷積神經網絡的強化學習操作,以獲得強化學習后的卷積神經網絡;
數量解析模塊,用于采用所述強化學習后的卷積神經網絡確定為使得所述強化學習后的卷積神經網絡的輸出層的單個輸出數據即丟失商品的數量最少所需要的所述同一超市內相等面積的設定數量的多個分區域應該分別部署的多個安保人員數量,以作為所述強化學習后的卷積神經網絡的輸入層的設定數量的多個輸入數據;
其中,所述卷積神經網絡為深度卷積神經網絡且包括一個輸出層、一個輸入層以及多個隱含層;
其中,所述同一超市內每一個分區域的面積固定,所述設定數量的數值越大,所述多個隱含層的數量越多。
2.如權利要求1所述的基于強化學習的智能決策系統,其特征在于,所述系統還包括:
無線通信模塊,用于將所需要的所述同一超市內相等面積的設定數量的多個分區域應該分別部署的多個安保人員數量作為參考派遣數量集合無線發送給遠端的超市管理服務器或者超市管理人員的手持終端。
3.如權利要求2所述的基于強化學習的智能決策系統,其特征在于,所述系統還包括:
內容存儲模塊,用于接收所述強化學習后的卷積神經網絡并存儲所述強化學習后的卷積神經網絡;
其中,所述內容存儲模塊還用于存儲所述設定數量與所述多個隱含層的數量的映射關系。
4.如權利要求3所述的基于強化學習的智能決策系統,其特征在于,所述系統還包括:
現場計時模塊,分別與所述系統的各個模塊連接,用于為所述各個模塊分別提供現場計時服務。
5.如權利要求1-4任一所述的基于強化學習的智能決策系統,其特征在于:
每一份學習數據為所述同一超市內相等面積的設定數量的多個分區域在某一個歷史時刻分別部署的多個安保人員數量,所述卷積神經網絡的輸出層的單個輸出數據為所述歷史時刻后預設時間長度范圍內的丟失商品的數量包括:多份學習數據分別對應的多個歷史時刻為多個不同日期的同一設定時刻。
6.如權利要求5所述的基于強化學習的智能決策系統,其特征在于:
所需要的所述同一超市內相等面積的設定數量的多個分區域應該分別部署的多個安保人員數量的部署時間為當天的所述同一設定時刻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于特斯聯科技集團有限公司,未經特斯聯科技集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110403205.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于CPS的PHM設計方法
- 下一篇:一種彩棉保暖面料的制備方法





