[發(fā)明專(zhuān)利]基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011549310.0 | 申請(qǐng)日: | 2020-12-24 |
| 公開(kāi)(公告)號(hào): | CN112700099A | 公開(kāi)(公告)日: | 2021-04-23 |
| 發(fā)明(設(shè)計(jì))人: | 田鵬飛;孫偉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 億景智聯(lián)(北京)科技有限公司 |
| 主分類(lèi)號(hào): | G06Q10/06 | 分類(lèi)號(hào): | G06Q10/06;G06N3/08 |
| 代理公司: | 南京鼎傲知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32327 | 代理人: | 劉藹民 |
| 地址: | 100085 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 運(yùn)籌學(xué) 資源 調(diào)度 規(guī)劃 方法 | ||
本發(fā)明公開(kāi)了基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃方法,包括如下步驟:S1、需要實(shí)現(xiàn)企業(yè)相關(guān)資源的動(dòng)態(tài)管理;S2、其次按照企業(yè)運(yùn)營(yíng)的多種約束條件,利用強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)實(shí)現(xiàn)尋找最優(yōu)的資源調(diào)度規(guī)劃;S3、最后將動(dòng)態(tài)的資源調(diào)度規(guī)劃能力與企業(yè)業(yè)務(wù)系統(tǒng)對(duì)接,所述S1中實(shí)現(xiàn)企業(yè)相關(guān)資源的動(dòng)態(tài)管理,利用時(shí)空計(jì)算引擎將企業(yè)運(yùn)營(yíng)的資源,數(shù)據(jù)實(shí)現(xiàn)可視化上圖,實(shí)現(xiàn)資源的網(wǎng)格化管理,本發(fā)明集成數(shù)據(jù)管理、深度學(xué)習(xí)和運(yùn)籌學(xué)核心算法、應(yīng)用系統(tǒng)于一體,實(shí)現(xiàn)企業(yè)資源調(diào)度的最優(yōu)安排,通過(guò)基于地圖的可視化UI界面輸出,便于人員的使用和管理,本發(fā)明對(duì)后臺(tái)規(guī)則和算法做封裝,只需要通過(guò)操作前端UI界面即可實(shí)現(xiàn)資源的智能調(diào)度規(guī)劃。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,具體為基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃方法。
背景技術(shù)
在企業(yè)運(yùn)營(yíng)管理中,有三個(gè)核心問(wèn)題資源管理、需求和銷(xiāo)量預(yù)測(cè)、資源的調(diào)度安排,廣泛意義上的資源包括設(shè)備、人員、客戶、產(chǎn)品、系統(tǒng)等等,隨著企業(yè)運(yùn)營(yíng)管理越來(lái)越精細(xì),甚至做到網(wǎng)格化的管理,資源的調(diào)度安排變得越來(lái)越重要,例如人員的排崗、客戶探訪排班、設(shè)備產(chǎn)品的動(dòng)態(tài)調(diào)度等;
基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃,既繼承了傳統(tǒng)運(yùn)籌學(xué)調(diào)度的能力,又利用人工智能的方式提升了調(diào)度的通用性;
在運(yùn)籌學(xué)(OR)研究中,調(diào)度被認(rèn)為是一類(lèi)重要的組合優(yōu)化問(wèn)題;在控制理論研究中,調(diào)度屬于最優(yōu)控制問(wèn)題,動(dòng)態(tài)調(diào)度是信息不完全的一類(lèi)調(diào)度,在環(huán)境不確定因素和擾動(dòng)的影響下,需要不斷的改變調(diào)度策略,可以認(rèn)為是調(diào)度策略優(yōu)化的過(guò)程;
強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一種,它組合了動(dòng)態(tài)規(guī)劃、隨機(jī)逼近和函數(shù)逼近的思想,強(qiáng)化學(xué)習(xí)很適合于解決動(dòng)態(tài)調(diào)度問(wèn)題,強(qiáng)化學(xué)習(xí)是智能體(Agent)以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),通過(guò)與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎(jiǎng)賞,求解強(qiáng)化學(xué)習(xí)問(wèn)題所使用的算法可分為策略搜索算法和值函數(shù)(valuefunction)算法兩類(lèi);
標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)框架結(jié)構(gòu)由狀態(tài)感知器、學(xué)習(xí)器和動(dòng)作選擇器三個(gè)模塊組成,狀態(tài)感知器把環(huán)境狀態(tài)映射成Agnet內(nèi)部感知,動(dòng)作選擇器根據(jù)當(dāng)前策略選擇動(dòng)作作用于環(huán)境,學(xué)習(xí)器根據(jù)環(huán)境狀態(tài)的獎(jiǎng)賞值以及內(nèi)部感知,更新的策略知識(shí),強(qiáng)化學(xué)習(xí)技術(shù)的基本原理是如果的某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)賞強(qiáng)化信號(hào),那么以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng),反之,產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)減弱;
動(dòng)態(tài)調(diào)度有時(shí)呈現(xiàn)的是一類(lèi)復(fù)雜的調(diào)度問(wèn)題,由于系統(tǒng)本身的復(fù)雜性,調(diào)度問(wèn)題處理的不再是單一性能指標(biāo)的優(yōu)化,而通常是對(duì)多約束下的多目標(biāo)綜合考慮。
發(fā)明內(nèi)容
本發(fā)明提供基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃方法,可以有效解決上述背景技術(shù)中提出的問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃方法,包括如下步驟:
S1、需要實(shí)現(xiàn)企業(yè)相關(guān)資源的動(dòng)態(tài)管理;
S2、其次按照企業(yè)運(yùn)營(yíng)的多種約束條件,利用強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)實(shí)現(xiàn)尋找最優(yōu)的資源調(diào)度規(guī)劃;
S3、最后將動(dòng)態(tài)的資源調(diào)度規(guī)劃能力與企業(yè)業(yè)務(wù)系統(tǒng)對(duì)接。
根據(jù)上述技術(shù)方案,所述S1中實(shí)現(xiàn)企業(yè)相關(guān)資源的動(dòng)態(tài)管理,利用時(shí)空計(jì)算引擎將企業(yè)運(yùn)營(yíng)的資源,數(shù)據(jù)實(shí)現(xiàn)可視化上圖,實(shí)現(xiàn)資源的網(wǎng)格化管理;
所述資源包括設(shè)備、人員、客戶、產(chǎn)品和系統(tǒng)。
根據(jù)上述技術(shù)方案,所述S2中利用強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)實(shí)現(xiàn)尋找最優(yōu)的資源調(diào)度規(guī)劃,基于運(yùn)籌學(xué)的動(dòng)態(tài)調(diào)度方法,通過(guò)建立數(shù)學(xué)模型利用動(dòng)態(tài)規(guī)劃算法可以快速實(shí)現(xiàn)多條件約束下的小規(guī)模資源,對(duì)于大規(guī)模資源的調(diào)度規(guī)劃,利用強(qiáng)化學(xué)習(xí)結(jié)合運(yùn)籌學(xué)來(lái)綜合實(shí)現(xiàn)最優(yōu)的調(diào)度規(guī)劃。
根據(jù)上述技術(shù)方案,所述S2中基于運(yùn)籌學(xué)的動(dòng)態(tài)調(diào)度方法建立合適的數(shù)學(xué)模型,將調(diào)度問(wèn)題解釋為優(yōu)化模型,該模型帶有目標(biāo)函數(shù)和一些條件約束,對(duì)此模型進(jìn)行有效的求解,采用的方法為動(dòng)態(tài)規(guī)劃。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于億景智聯(lián)(北京)科技有限公司,未經(jīng)億景智聯(lián)(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011549310.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06Q 專(zhuān)門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類(lèi)目不包含的專(zhuān)門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門(mén)票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問(wèn)題”或“下料問(wèn)題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 大中城市交通擁堵的預(yù)防和治理
- 一種常減壓裝置的實(shí)時(shí)優(yōu)化方法
- 一種選科指導(dǎo)系統(tǒng)
- 一種露天礦多金屬配礦的多目標(biāo)優(yōu)化方法
- 航班計(jì)劃自動(dòng)編排方法
- 應(yīng)用于手機(jī)端的運(yùn)籌學(xué)數(shù)學(xué)規(guī)劃模型學(xué)習(xí)輔助系統(tǒng)及方法
- 非常規(guī)油氣地質(zhì)工程一體化開(kāi)發(fā)運(yùn)籌學(xué)優(yōu)化定量決策方法
- 基于強(qiáng)化學(xué)習(xí)和運(yùn)籌學(xué)的資源調(diào)度規(guī)劃方法
- 客艙人員自動(dòng)排班方法
- 策略確定方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





