[發明專利]一種基于深度強化學習和遺傳算法的分批調度優化方法有效
| 申請號: | 202011373229.1 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112488315B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 譚琦;賈鋮鈺;余榮坤;孫晨皓;唐昊;夏田林 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06N3/12 | 分類號: | G06N3/12;G06N3/08;G06K9/62;G06Q10/04 |
| 代理公司: | 合肥云道爾知識產權代理事務所(特殊普通合伙) 34230 | 代理人: | 閆興貴 |
| 地址: | 230000 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 遺傳 算法 分批 調度 優化 方法 | ||
本發明屬于生產制造調度領域,公開了一種基于深度強化學習和遺傳算法的分批調度優化方法,包括步驟:建立差異工件批調度問題的數學模型;采用指針網絡建立該問題的策略模型;利用actor?critic算法訓練指針網絡模型;定義并初始化遺傳算法的參數;使用訓練完成的指針網絡優化遺傳算法的初始種群;采用遺傳算法對調度方案進行進一步優化;利用遺傳算法得到的最優方案作為批處理機加工工件的生產方案。本發明中的指針網絡相較于傳統的啟發式算法,可以獲得更優的解;并且在遺傳算法的交叉操作中,提出了一種新型的交叉方式,可以在指針網絡所得調度方案的基礎上,利用提高遺傳算法的尋優能力,進一步提升方案的性能。
技術領域
本發明屬于生產制造調度領域,具體的說是一種基于深度強化學習和遺傳算法的分批調度優化方法。
背景技術
批調度問題源于半導體制造業中用于最終測試的老化操作。在此操作中,集成電路被成批地放在高溫烘箱中,經過較長時間檢測集成電路早期可能產生的故障。老化操作通常是半導體制造的一個瓶頸,因為在最終測試中,它的處理時間通常比其他操作要長。因此,對烤箱(或機器)進行有效的調度非常重要,可以極大地提高它們的利用率。目前,批調度問題不僅僅存在于半導體制造行業,也廣泛存在于大多數制造行業,如鑄造業、家具制造業、金屬加工業、航空業、制藥業以及物流貨運。對于大多數制造行業而言,設計合理的調度策略也是提高生產效率,降低生產成本的有效途徑之一。所以對批調度問題的研究,無論是對于提高生產管理水平,還是獲取更高的經濟效益都有著重要的現實意義。
近年來,基于數據學習的深度神經網絡可以發現問題本身的特性,從而用于求解問題。因此,深度神經網絡為求解組合優化問題提供了一個新的方向。現有對于深度神經網絡求解生產制造調度問題的研究和關注甚少,尚無深度神經網絡在差異工件批調度問題中的應用。
發明內容
本發明所要解決的技術問題在于提供一種針對生產中待加工工件具有尺寸和加工時間差異時,以最小化總制造時間跨度為目標的分批調度優化方法。
本發明為解決技術問題采用如下技術方案:
本發明基于深度強化學習和遺傳算法的分批調度優化方法,按如下步驟進行:
步驟I、建立差異工件批調度問題的數學模型;
針對所述差異工件批調度問題作如下定義,工件集合J={1,2,…,n},其中,工件j的加工時間為pj,工件尺寸為sj;批處理機的機器容量為C,在滿足容量約束的前提下,機器可同時加工多個工件;待加工批的集合為K,其中,批k的加工時間為Pk,等于批k中工件加工時間的最大值。Xjk表示決策變量,若工件j在批k中,則Xjk=1,否則,Xjk=0。Yk表示決策變量,若批k被建立,則Yk=1,否則,Yk=0。
根據上述定義,對單機不同尺寸工件的批調度問題可建如下數學模型:
目標函數:
約束條件:
步驟II、采用指針網絡建立該問題的策略模型;
步驟III、利用actor-critic算法訓練指針網絡模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011373229.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法、裝置、除濕機及存儲介質
- 下一篇:用于水泥生產的提升機





