[發(fā)明專利]基于強化學習的智能決策方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110403205.4 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113204916B | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設計)人: | 李啟娟 | 申請(專利權)人: | 特斯聯(lián)科技集團有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京春江專利商標代理事務所(普通合伙) 11835 | 代理人: | 向志杰 |
| 地址: | 100027 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 智能 決策 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于強化學習的智能決策系統(tǒng),所述系統(tǒng)包括:強化學習模塊,用于將每一份學習數(shù)據(jù)對應的丟失商品的數(shù)量的倒數(shù)作為對卷積神經網絡進行強化學習的獎勵信號進行強化學習,以分時逐份完成固定數(shù)量的多份學習數(shù)據(jù)的強化學習;數(shù)量解析模塊,用于采用強化學習后的卷積神經網絡確定為使得強化學習后的卷積神經網絡的輸出層的單個輸出數(shù)據(jù)即丟失商品的數(shù)量最少所需要的輸入數(shù)據(jù)即同一超市內相等面積的設定數(shù)量的多個分區(qū)域應該分別部署的多個安保人員數(shù)量。本發(fā)明還涉及一種基于強化學習的智能決策方法。通過本發(fā)明,能夠采用基于強化學習的卷積神經網絡完成對同一超市內海量視頻數(shù)據(jù)以及海量商品錄入數(shù)據(jù)之間的對應關系的建模。
技術領域
本發(fā)明涉及智慧大腦領域,尤其涉及一種基于強化學習的智能決策方法及系統(tǒng)。
背景技術
隨著技術的發(fā)展和城市數(shù)據(jù)建設的跟進,大數(shù)據(jù)對于城市管理發(fā)展的影響日益顯現(xiàn),越來越多的城市通過挖掘數(shù)據(jù)金礦幫助城市發(fā)展決策管理。在城市運行和經濟發(fā)展中,大數(shù)據(jù)被視為支撐城市發(fā)展的智慧大腦。城市的管理和運營需要科學決策,涓滴匯流而來的數(shù)據(jù),正在成為城市管理者的有效參考。市政、警務、消防、交通、通信、商業(yè)被融合打通,匯集在統(tǒng)一的大數(shù)據(jù)平臺上,并在對海量數(shù)據(jù)進行分析后,形成智慧應用。
然而,大數(shù)據(jù)的成熟應用尚需時日,從目前來看,應用大數(shù)據(jù),突破瓶頸依然需要時間,其中重點之一,就是對海量數(shù)據(jù)進行挖掘時如何建模。由于數(shù)據(jù)挖掘的建模非常繁瑣,需要花費大量時間,無法一蹴而就。目前有了數(shù)據(jù)只是第一步,尋找數(shù)據(jù)維度之間的相關性,總結規(guī)律,需要經歷很長時間,還需要通過實踐來檢驗算法模型,同時適應新數(shù)據(jù)的涌入,發(fā)展大數(shù)據(jù)沒有捷徑,需要一磚一瓦累積起來。
例如,在城市的超市管理方面,遍布超市各個區(qū)域的攝像部件不間斷拍攝了大量的視頻數(shù)據(jù),而超市每一段時間內的丟失商品數(shù)量也在持續(xù)的人工統(tǒng)計或者自動統(tǒng)計中,但是,這兩項不同類型的海量數(shù)據(jù)之間的數(shù)據(jù)關聯(lián)性仍缺乏針對性的數(shù)據(jù)挖掘方案,導致反應對應關系的智能化模塊一直無法有效建立。
發(fā)明內容
為了解決上述問題,本發(fā)明提供了一種基于強化學習的智能決策方法及系統(tǒng),采用卷積神經網絡完成同一超市內海量視頻數(shù)據(jù)以及海量商品錄入數(shù)據(jù)之間的對應關系的建模,尤為重要的是,將預設時間長度內的丟失商品數(shù)量的倒數(shù)作為對所述卷積神經網絡進行強化學習的獎勵信號以完成對所述卷積神經網絡的強化學習操作,從而為每一超市設定時刻為保證最少商品損失所需派遣到各個區(qū)域的安保人員數(shù)量提供人工智能解析方案。
為此,本發(fā)明至少需要具備以下三處關鍵的發(fā)明點:
(1)利用強化學習后的深度卷積神經網絡對不同面積的超市在設定時刻派遣到各個區(qū)域的各個安保人員數(shù)量進行解析,以保證派遣后的超市商品丟失數(shù)量最少;
(2)為不同超市建立不同的基于強化學習的深度卷積神經網絡,超市面積越大,均勻劃分為固定面積的各個區(qū)域的數(shù)量越多,所述深度卷積神經網絡的輸入層的輸入數(shù)據(jù)越多、隱含層的數(shù)量越多,從而為不同面積超市提供相同智能化水平的人工智能安防機制;
(3)將每一份學習數(shù)據(jù)對應的丟失商品的數(shù)量的倒數(shù)作為對深度卷積神經網絡進行強化學習的獎勵信號對深度卷積神經網絡進行強化學習操作,從而保證了深度卷積神經網絡的學習效果。
根據(jù)本發(fā)明的第一方面,提供了一種基于強化學習的智能決策系統(tǒng),所述系統(tǒng)包括:
網絡建立模塊,用于建立卷積神經網絡,所述卷積神經網絡的輸入層的設定數(shù)量的多個輸入數(shù)據(jù)為同一超市內相等面積的設定數(shù)量的多個分區(qū)域分別部署的多個安保人員數(shù)量,所述卷積神經網絡的輸出層的單個輸出數(shù)據(jù)為所述超市在完成上述部署后預設時間長度范圍內的丟失商品的數(shù)量;
數(shù)據(jù)采集模塊,用于采集固定數(shù)量的多份學習數(shù)據(jù),每一份學習數(shù)據(jù)為所述同一超市內相等面積的設定數(shù)量的多個分區(qū)域在某一個歷史時刻分別部署的多個安保人員數(shù)量,所述卷積神經網絡的輸出層的單個輸出數(shù)據(jù)為所述歷史時刻后預設時間長度范圍內的丟失商品的數(shù)量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于特斯聯(lián)科技集團有限公司,未經特斯聯(lián)科技集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110403205.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于CPS的PHM設計方法
- 下一篇:一種彩棉保暖面料的制備方法





