[發(fā)明專(zhuān)利]基于D3QN強(qiáng)化學(xué)習(xí)的面向工件流轉(zhuǎn)智能車(chē)間實(shí)時(shí)調(diào)度方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211058355.7 | 申請(qǐng)日: | 2022-08-30 |
| 公開(kāi)(公告)號(hào): | CN115526457A | 公開(kāi)(公告)日: | 2022-12-27 |
| 發(fā)明(設(shè)計(jì))人: | 王美林;吳耿楓;梁凱晴;邸江磊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣東工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06Q10/06 | 分類(lèi)號(hào): | G06Q10/06;G06K9/62;G06N3/04;G06N3/08;G06Q50/04 |
| 代理公司: | 廣州粵高專(zhuān)利商標(biāo)代理有限公司 44102 | 代理人: | 劉俊 |
| 地址: | 510090 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 d3qn 強(qiáng)化 學(xué)習(xí) 面向 工件 流轉(zhuǎn) 智能 車(chē)間 實(shí)時(shí) 調(diào)度 方法 | ||
1.一種基于D3QN強(qiáng)化學(xué)習(xí)的面向工件流轉(zhuǎn)智能車(chē)間實(shí)時(shí)調(diào)度方法,其特征在于,包括以下步驟:
S1:從智能車(chē)間某次訂單下放起至成品加工完畢,采集并記錄本次生產(chǎn)過(guò)程的所有作業(yè)數(shù)據(jù);
S2:將步驟S1采集的作業(yè)數(shù)據(jù)分類(lèi)處理成馬爾可夫決策鏈數(shù)據(jù);
S3:將步驟S2處理完畢的馬爾可夫決策鏈數(shù)據(jù)載入容量為C的樣本數(shù)據(jù)池;
S4:判斷樣本數(shù)據(jù)池是否已蓄滿(mǎn),若未蓄滿(mǎn)則重復(fù)步驟S1至S3,若蓄滿(mǎn)則執(zhí)行S5;
S5:構(gòu)建兩個(gè)結(jié)構(gòu)一致的卷積神經(jīng)網(wǎng)絡(luò)作為D3QN的在線Q網(wǎng)絡(luò)和目標(biāo)Q-網(wǎng)絡(luò);
S6:從樣本數(shù)據(jù)池中隨機(jī)抽取若干條馬爾可夫決策鏈數(shù)據(jù),訓(xùn)練所述在線Q網(wǎng)絡(luò),以固定訓(xùn)練頻率更新目標(biāo)Q-網(wǎng)絡(luò)參數(shù);
S7:判斷當(dāng)前在線Q網(wǎng)絡(luò)是否收斂,若不收斂,則返回步驟S6,若收斂,則執(zhí)行S8;
S8:調(diào)用已收斂的在線Q網(wǎng)絡(luò)作為知識(shí)網(wǎng)絡(luò),匹配車(chē)間實(shí)時(shí)狀態(tài),擇優(yōu)排產(chǎn),反復(fù)執(zhí)行直至生產(chǎn)結(jié)束。
2.根據(jù)權(quán)利要求1所述的基于D3QN強(qiáng)化學(xué)習(xí)的面向工件流轉(zhuǎn)智能車(chē)間實(shí)時(shí)調(diào)度方法,其特征在于,步驟S1中生產(chǎn)過(guò)程的所有作業(yè)數(shù)據(jù),具體為:
所述生產(chǎn)過(guò)程的所有作業(yè)數(shù)據(jù)是在生產(chǎn)過(guò)程中通過(guò)多種方法采集到的多種資源類(lèi)型數(shù)據(jù),生產(chǎn)過(guò)程包括車(chē)間物料訂單下放、車(chē)間工件工藝排產(chǎn)和車(chē)間完工結(jié)果,作業(yè)數(shù)據(jù)囊括了車(chē)間內(nèi)“人、機(jī)、物、法、環(huán)”各類(lèi)資源信息變化,具體包括物聯(lián)網(wǎng)實(shí)時(shí)采集的生產(chǎn)設(shè)備的工作狀態(tài)數(shù)據(jù)、待加工工件的信息數(shù)據(jù)和工件排產(chǎn)轉(zhuǎn)移數(shù)據(jù),也包括其它生產(chǎn)系統(tǒng)導(dǎo)入車(chē)間的生產(chǎn)訂單數(shù)據(jù)、物料數(shù)據(jù)和加工工藝數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的基于D3QN強(qiáng)化學(xué)習(xí)的面向工件流轉(zhuǎn)智能車(chē)間實(shí)時(shí)調(diào)度方法,其特征在于,步驟S2中將步驟S1采集的作業(yè)數(shù)據(jù)分類(lèi)處理成馬爾可夫決策鏈數(shù)據(jù),具體為:
按車(chē)間資源類(lèi)別分類(lèi)并構(gòu)建多通道資源視圖作為狀態(tài)si,一個(gè)狀態(tài)si包含所有納入考慮的資源維度狀態(tài)信息,每個(gè)資源維度狀態(tài)信息以一個(gè)矩陣形式的通道狀態(tài)視圖表征,表達(dá)式如下:
si=Pm×c,Mm×c,Wm×c,F(xiàn)m×c,......,Em×c>,i∈(0,1,2...,n-1)
式中,Pm×c為車(chē)間人員信息矩陣,Mm×c為機(jī)器設(shè)備信息矩陣,Wm×c為工件物料信息矩陣,F(xiàn)m×c為工藝流程信息矩陣,Em×c為環(huán)境信息矩陣,m×c表示矩陣尺寸,以車(chē)間內(nèi)工件總數(shù)m為矩陣行數(shù),加工設(shè)備總數(shù)c為矩陣列數(shù),其中,各資源維度狀態(tài)矩陣可以根據(jù)生產(chǎn)邏輯需要靈活擴(kuò)展為其它決策所用的資源類(lèi)型。
基于車(chē)間工件在設(shè)備間的流轉(zhuǎn)構(gòu)建動(dòng)作動(dòng)作為具體某工件從某道工序設(shè)備轉(zhuǎn)移至下道工序設(shè)備,以工件θH和加工設(shè)備之間的有向流轉(zhuǎn)TrK為表征,表達(dá)式如下:
式中,θH為H類(lèi)工件,Tr(O,Z)K表示從O類(lèi)設(shè)備轉(zhuǎn)移至Z類(lèi)設(shè)備,G為動(dòng)作編碼、H為工件類(lèi)別編碼,K為設(shè)備之間的流轉(zhuǎn)編碼,各元素編碼規(guī)則如下:
G=(H×sum(Tr))+K
式中sum(Tr)表示車(chē)間內(nèi)同類(lèi)設(shè)備間有向流轉(zhuǎn)的總數(shù);
在車(chē)間狀態(tài)si下工件的可轉(zhuǎn)移動(dòng)作集為Job(si),以有限個(gè)動(dòng)作為表征,表達(dá)式如下:
Job是一個(gè)智能函數(shù),可有效表達(dá)出車(chē)間狀態(tài)si下工件可選擇轉(zhuǎn)移的方向,實(shí)際生產(chǎn)轉(zhuǎn)移將從眾多方向中選擇一個(gè)執(zhí)行,每刷新智能車(chē)間狀態(tài)si,Job(si)也將隨之更新;
根據(jù)調(diào)度目標(biāo)tar和完工結(jié)果T契合程度,賦予車(chē)間在狀態(tài)si下執(zhí)行動(dòng)作進(jìn)入新?tīng)顟B(tài)si+1相應(yīng)的獎(jiǎng)勵(lì)r;
車(chē)間從訂單下放狀態(tài)s0開(kāi)始至完工狀態(tài)sn結(jié)束,按n次調(diào)度排產(chǎn)順序形成逐條馬爾可夫決策鏈數(shù)據(jù)
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣東工業(yè)大學(xué),未經(jīng)廣東工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211058355.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06Q 專(zhuān)門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類(lèi)目不包含的專(zhuān)門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門(mén)票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問(wèn)題”或“下料問(wèn)題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





