[發明專利]基于D3QN強化學習的面向工件流轉智能車間實時調度方法在審
| 申請號: | 202211058355.7 | 申請日: | 2022-08-30 |
| 公開(公告)號: | CN115526457A | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 王美林;吳耿楓;梁凱晴;邸江磊 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06K9/62;G06N3/04;G06N3/08;G06Q50/04 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 劉俊 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 d3qn 強化 學習 面向 工件 流轉 智能 車間 實時 調度 方法 | ||
本發明公開一種基于D3QN強化學習的面向工件流轉智能車間實時調度方法,先采集車間的作業數據并處理成馬爾可夫決策鏈數據,訓練一個D3QN的在線Q網絡和目標Q?網絡,并利用訓練好的在線Q網絡作為知識網絡,匹配車間實時狀態,擇優排產,反復執行直至生產結束。本發明通過實時采集多通道資源視圖狀態匹配知識網絡模型的推理實現智能制造車間實時調度,高效快速指導車間作業調度,提高企業生產效率。
技術領域
本發明涉及車間作業調度和人工智能算法技術領域,更具體地,涉及一種基于D3QN強化學習的面向工件流轉智能車間實時調度方法。
背景技術
車間實時作業調度是企業智能化,自動化的關鍵一環,對提升企業生產效率和經濟收益具有現實意義,因此,車間作業調度問題成為時下調度領域的研究熱點和難點。然而,現代制造車間普遍存在生產規模龐大,資源約束繁多等問題,迫切要求實時調度算法必須具備高質量求解性能和快速響應能力。
離散車間調度問題屬典型的非確定性多項式難題(NP-Hard),現有車間調度方法多采用確定性算法或者元啟發式算法進行求解,上述算法雖然在小規模離散制造問題上尋優能力顯著,但在實際大規模生產場景上,此類算法對調度目標的搜索不可避免地面臨解空間的組合爆炸,可能存在陷入局部最優解或者求解時間長的問題,因此該類算法難以適應實際車間的實時調度。
現有技術中公開了一種基于深度強化學習的流水車間調度方法,首先,將調度決策所需車間資源分類并構建多維度,可靈活擴展的資源信息矩陣,聚合得到相應的車間狀態視圖。其次,將車間狀態作為多通道卷積神經網絡模型的輸入,將最大完工時間與預期生產目標的契合度作為獎勵,最后,對網絡模型進行訓練并保存參數,使得網絡擬合最優策略函數。實際問題中,車間狀態可選擇每個工件在其工序上的處理時間作為資源節點信息構建車間狀態,并將其作為最優策略網絡的輸入,依次選擇策略價值最優的工件排產任務,直到所有工件選擇完畢得到完整的調度序列。本發明所述的流水車間調度方法在小規模問題上可以獲得近優解,在大規模問題上可以獲得優于啟發式算法和遺傳算法的較優解,但是單純的深度學習DQN算法可能會導致過度估計,使得調度結果偏差較大。
發明內容
本發明提供一種基于D3QN強化學習的面向工件流轉智能車間實時調度方法,克服傳統算法在求解當今大規模制造車間存在的易陷入局部最優解和求解時間長等問題。
為解決上述技術問題,本發明的技術方案如下:
一種基于D3QN強化學習的面向工件流轉智能車間實時調度方法,包括以下步驟:
S1:從智能車間某次訂單下放起至成品加工完畢,采集并記錄本次生產過程的所有作業數據;
S2:將步驟S1采集的作業數據分類處理成馬爾可夫決策鏈數據;
S3:將步驟S2處理完畢的馬爾可夫決策鏈數據載入容量為C的樣本數據池;
S4:判斷樣本數據池是否已蓄滿,若未蓄滿則重復步驟S1至S3,若蓄滿則執行S5;
S5:構建兩個結構一致的卷積神經網絡作為D3QN(Dueling Double DQN,雙層決斗網絡算法)的在線Q網絡和目標Q-網絡;
S6:從樣本數據池中隨機抽取若干條馬爾可夫決策鏈數據,訓練所述在線Q網絡,以固定訓練頻率更新目標Q-網絡參數;
S7:判斷當前在線Q網絡是否收斂,若不收斂,則返回步驟S6,若收斂,則執行S8;
S8:調用已收斂的在線Q網絡作為知識網絡,匹配車間實時狀態,擇優排產,反復執行直至生產結束。
優選地,步驟S1中生產過程的所有作業數據,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211058355.7/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





